Informacije o predmetu | Odkrivanje znanj iz podatkov

Odkrivanje znanj iz podatkov

Pri predmetu bomo v teoriji in na praktičnih primerih spoznavali tehnike odkrivanja znanj iz podatkov (angl. data mining). Če bo le možno, pri predmetu sodelujemo na mednarodnem tekmovanju s področja analize podatkov, tipično s portala Kaggle. Za izbrano tekmovanje na predavanjih v teoriji spoznamo ustrezne tehnike podatkovne analitike, poznavanje teh učvrstimo z implementacijami v projektnih domačih nalogih, nato pa se samostojno ali v manjših skupinah lotimo naloge iz tekmovanja. Pri tem uporabljamo skriptna orodja v jeziku Python in knjižnice za podatkovno analitiko, kot so numpy, scikit-learn, Orange, Keras in knjižnice za vizualizacijo podatkov kot je matplotlib. Če so problemi računsko zahtevni, imamo na voljo strojno opremo za vzporedno izvajanje programske kode.

Med tipičnimi tehnikami, ki smo ji spoznavali pri izvedbah predmeta v preteklih letih, so bile metode za ocenjevanje podobnosti med primeri podatkov, metode razvrščanja v skupine, tehnike za uvrščanje v skupine (logistična regresija, nevronske mreže, gozdovi klasifikacijskih dreves), globoko učenje in tehnike izbora značilk, ali pa metode za gradnjo priporočilnih sistemov. Pri predmetu precej programiramo, spoznavamo matematične osnove strojnega učenja, in vsakih štirinajst dni pripravimo poročilo v obliki domače naloge. Delo pri predmetu je intenzivno in sprotno, ocene domačih nalog nadomestijo pisni izpit, ustnega izpita ni. Predavanja skušamo prepletati z vajami, če je le možno, vse skupaj izvedemo v računalniški učilnici in skupaj razvijamo dele programske kode ali pa debatiramo o posledicah sprememb algoritmičnih pristopov in parametrov posameznih metod.

Potrebna predznanja: pogoj za vpis na predmet je uspešno opravljen prvostopenjski predmet Uvod v odkrivanje znanj iz podatkov (do 2016/17 poimenovan Poslovna inteligenca). Študenti druge stopnje lahko predmet Poslovna inteligenca izberejo v prvem semestru in potem v drugem semestru nadaljujejo s predmetom Odkrivanje znanj iz podatkov.

nosilec: Blaž Zupan