Predmet: Uvod v odkrivanje znanj iz podatkov

Splošno

Predavatelj: Blaž Zupan (blaz.zupan@fri.uni-lj.si)

Asistenti: Marko Toplak (marko.toplak@fri.uni-lj.si), Jaka Kokošar

Predavanja potekajo v živo. Jih ne snemamo. Zoom predavanj ne bo.

Vaje pri predmetu bodo kombinacija konzultacij in (po potrebi) kratkih tečajev o praktičnih temah, ki bodo povezane z izvedbo domačih nalog. Na konzultacijah na začetku v skupini razpravljamo o snovi oziroma nalogah, kasneje pa delamo individualno.

Ocenjevanje: Ocena predmeta je sestavljena iz ocen domačih nalog in pisnega izpita. Pozitivna ocena domačih nalog (študent je zbral več kot 60% možnih točk) je pogoj za pristop k izpitu. Ocena predmeta je pozitivna, če je pozitivna tako ocena domačih nalog kot pisnega izpita (zbranih več kot 60% možnih točk pri domačih nalogah in več kot 60% možnih točk pri izpitu). Bonusi iz domačih nalog se ne prenašajo na pisni izpit (in obratno). Združena ocena domačih nalog in izpita v odstotnih točkah, kjer je DN ocena domačih nalog in I ocena izpita v odstotnih točkah se izračuna po enačbi: ocena [odstotne točke] = max( min(DN+15, I), min(DN, I+15) ). Primer: 85% točk iz domačih nalog, 65% iz izpita, ocena je 80%. Še en primer: pisni izpit 90%, domače naloge 65%, ocena je 80%. Zaokrožene odstotne točke (celo število) se prevedejo v končno oceno pri predmetu. Do 60 točk: ocena 5, od 61 do 68: ocena 6, od 69 do 76: 7, od 77 do 84: 8, od 85 do 92: 9, od 93 točk: ocena 10. Vpis ocene bo potekal v izpitnem obdobju hkrati z ustnim izpitom, ki bo na voljo za vse, ki bi radi spremenili oceno.

Domače naloge

Domače naloge bodo projektne, predvidoma bodo to tri domače naloge, ocenjevanje je na ustnih zagovorih ter z deponiranjem vaše kode. Če odkrijemo prepisovanje, dobita tako avtor kot prepisovalec negativne točke, ki so po absolutni vrednosti enake maksimalnim možnim točkam za to nalogo. Za vsako odkrito prepisovanje krajše naloge se vaša ocena iz nalog s prve točke zmanjša za 20 odstotnih točk. Poleg treh projektov bodo domače naloge obsegale tudi reševanje kratkih problemov, za katere boste morali napisati ustrezno kodo. Uspešnost teh vrednotimo z programskimi testi (unit testi); nalogo štejemo kot pravilno rešeno, če opravi vse unit teste.

Za pristop k izpitu morate v roku opraviti vse kratke domače naloge razen ene in vse tri uspešno zagovorjene projektne domače naloge.. Tako domače naloge kot kratke naloge imajo svoje roke, ki jih bomo objavljali tu.

Literatura

na voljo bodo zapiski s predavanje, objava teh sledi
dodatna gradiva, objavljena na tej spletni strani

Izberi aktivnost Novice

Novice Forum
Izberi aktivnost Forum

Forum
Izberi aktivnost 0. kratka domača naloga: uporabniško ima na Githubu

0. kratka domača naloga: uporabniško ima na Githubu
Izberi aktivnost 1. kratka naloga: hierarhično razvrščanje

1. kratka naloga: hierarhično razvrščanje
Izberi aktivnost 2. kratka naloga: silhueta

2. kratka naloga: silhueta
Izberi aktivnost 3. kratka naloga: osamelci med slikami

3. kratka naloga: osamelci med slikami
Izberi aktivnost 4. kratka domača naloga: k-medoidov

4. kratka domača naloga: k-medoidov
Izberi aktivnost 1. projekt: vizualizacija novic rtvslo.si

1. projekt: vizualizacija novic rtvslo.si Naloga
Izberi aktivnost 2. projekt: napovedovanje števila komentarjev na rtvslo.si

2. projekt: napovedovanje števila komentarjev na rtvslo.si Naloga
Izberi aktivnost 5. kratka naloga: MDS

5. kratka naloga: MDS
Izberi aktivnost 3. projekt: število koles BicikeLJ

3. projekt: število koles BicikeLJ Naloga
Izberi aktivnost Zagovor 3. projektne naloge in ustni izpit

Zagovor 3. projektne naloge in ustni izpit Razpored

Podatki

V tej učni enoti obravnavamo podatke v različnih oblikah, pri čemer se osredotočamo na njihovo numerično predstavitev in vložitve v vektorske prostore. Predstavimo tabelarične podatke z matrično notacijo, kodiranje kategoričnih spremenljivk in diskretizacijo numeričnih podatkov, nato pa razširimo obravnavo na natabelarične podatke, kot so besedilo, slike, omrežja in časovne vrste, ter metode za njihovo numerično pretvorbo. Raziskujemo različne metrike razdalje za primerjavo podatkovnih primerov, izzive visokih dimenzij ter tehnike iskanja osamelcev. Na koncu se dotaknemo uporabe domenskih podatkov, vključno z ontologijami, besedilnimi in slikovnimi opisi ter pravilnimi omejitvami za izboljšano interpretacijo modelov.

Zapiski predavatelja

Podatki (zapiski predavatelja)

Prosojnice s predavanj

Podatki (prosojnice)

Gručenje

Gručenje je oblika nenadzorovanega učenja za iskanje skritih vzorcev v podatkih brez vnaprej določenih oznak. Tu predstavimo različne pristope gručenja, vključno s particijskimi metodami, hierarhičnim gručenjem, gostotnimi pristopi, modelno temelječimi metodami in gručenjem na grafih. Predstavimo tudi formalne kriterije za ocenjevanje kakovosti gručenja, kot so znotrajgručna kohezija in medgručna ločitev ter opišemo ključne metrike za ocenjevanje kvalitete gručenja, kot sta silhuetni koeficient in prilagojeni Randov indeks. Na koncu predstavimo metode za razlago dobljenih gruč, vključno z vizualizacijo, identifikacijo pomembnih značilk in pravil, ki nam lahko pomagaho pri interpretaciji rezultatov.

Zapiski s predavanj

Gručenje

Podatkovne karte

Podatkovne karte so vizualno orodje za prikaz podatkov v dveh (redkeje treh) dimenzijah, namenjeno predvsem razlagi in iskanju vzorcev. Ključna razlika med projekcijami, kot je PCA, in vložitvami, kot so MDS, t-SNE in UMAP, je v tem, da so projekcije linearne in temeljijo na kombinacijah značilk, ki jih lahko razložimo, medtem ko so vložitve nelinearne in prilagojene ohranjanju razdalj ali sosedstev, pri čemer nove osi nimajo jasne razlage. Če PCA išče glavne smeri največje variance in ima analitično rešitev, vložitve skušajo ohraniti kompleksne odnose med podatki in za rešitev zahtevajo numerične metode, kot je gradientni spust. Podatkovne karte niso le vizualizacija, ampak predvsem sredstvo za razlago podatkov, saj omogočajo vpogled v skupine in odnose med primeri, pogosto v povezavi z gručami.

Zapiski s predavanj

Podatkovne karte

Strojno odvajanje: gradientni sestop in računski graf

Avtomatsko odvajanje je metoda za izračun gradientov, ki omogoča učinkovito optimizacijo kriterijskih funkcij v strojnem učenju. V tipičnem problemu strojnega učenja imamo namreč podatke, strukturo modela s parametri in kriterijsko funkcijo, ki določa, kako dobro model ustreza podatkom. Optimizacija parametrov poteka s postopki, kot je gradientni sestop, kjer se model oziroma njegovi parametri prilagajajo tako, da minimizirajo kriterijsko funkcijo. Primeri takšnih funkcij vključujejo napake napovednih modelov ali optimizacijske cilje pri metodah zmanjšanja dimenzij. Tu, v uvodu v avtomatsko odvajanje, najprej predstavimo analitične in numerične pristope k izračunu gradientov, nato pa skušamo razviti program za avtomatsko odvajanje tako, da razvoj pričnemo za silno enostavno funkcijo. Seveda bomo te postopke v naslednjem predavanju nadgradili, jih praktično uporabili v učnem algoritmu, in pokazali, da so za vse to na voljo številne že zgrajene in odlične knjižnice. Razvoj naše kode za odvajanje je torej zgolj šolski, nam pa (upamo) dobro pomaga razumeti področje.

Zapiski s predavanj

Strojno odvajanje: gradientni sestop in računski graf

Koda

GitHub repozitorij

Andrej Karpathy: micrograd

Strojno odvajanje: razvoj programa

Razvijemo osnovni program za avtomatsko (strojno) odvajanje z uporabo računskega grafa, ki omogoča izračun gradientov po verižnem pravilu. Na začetku implementiramo vozlišča grafa kot objekt `Value`, ki shranjujejo vrednosti, operacije in povezave s predhodniki. S pomočjo tega razreda in njegovih metod za seštevanje, množenje (kasneje dodamo še druge operacije, ki vključujejo odštevanje, potenciranje, negacija, konstante) gradimo graf, po katerem se lahko sprehodimo naprej za izračun vrednosti funkcije ter nazaj za izračun gradientov.

Zapiski s predavanj

Strojno odvajanje: razvoj programa

Koda

GitHub repozitorij

Učenje modelov z gradientnim sestopom in strojnim odvajanjem

S preprosto knjižnico za strojno odvajanje, ki smo jo razvili na prejšnjem predavanju, učimo modele z gradientnim sestopom, pri čemer začnemo z linearno regresijo in nadaljujemo z bolj kompleksnimi primeri, kot sta multivariatna regresija in večrazredno lestvičenje. Vpeljemo razred LinReg za regresijo z eno ali več vhodnimi spremenljivkami, opremimo ga z metodo za izračun izgube ter postopoma razširimo s podporo za paketno učenje. Knjižnico za strojno odvajanje ustrezno dopolnimo z novimi operacijami. Razvijemo tudi razred MDS za večrazredno lestvičenje, in z njim obdelamo primer generiranja karte mest glede na cestne razdalje. Kljub enostavni implementaciji lahko učinkovito učimo različne modele, kar kaže na moč strojnega odvajanja in gradientnega sestopa pri reševanju raznovrstnih optimizacijskih problemov.

Zapiski s predavanj

Linerarna regresija in MDS

Koda

GitHub repozitorij

Verjetje

Verjetje pove, kako verjetni so podatki glede na dani model in njegove parametre. Pokažemo, kako to načelo vodi do kriterijskih funkcij v regresiji in klasifikaciji. Pri linearni regresiji z normalno porazdeljenimi napakami maksimizacija verjetja vodi do minimizacije vsote kvadratov napak. V logistični regresiji pa zaradi binarne narave izhodov uporabimo Bernoullijevo porazdelitev, kar vodi do funkcije izgube v obliki negativnega logaritma verjetja (binary cross-entropy). Tako razvito logistično regresijo tudi implementiramo.

Zapiski s predavanj

Verjetje

Koda

GitHub repozitorij

Nevronske mreže

V poglavju želimo predvsem prikazati, kako enostavno je implementirati nevronsko mrežo z uporabo knjižnice za strojno odvajanje, kot smo jo razvili do sedaj. Obenem se naučimo, da je nevronska mreža na področju binarne klasifikacije nekakšen predprocesor podatkov za logistično regresijo, ki ji vhodni prostor atributov spremeni tako, da so primeri različnih razredov v njem, torej, v novem prostoru, linearno ločljivi.

Zapiski s predavanj

Nevronske-mreže

Koda

GitHub repozitorij

Poissonova regresija in generalizirani linearni modeli

Tu implementiramo Poissonovo regresijo kot ustreznejši model za napovedovanje števnih, nenegativnih in asimetrično porazdeljenih vrednosti, kjer linearna regresija odpove. Poissonovo porazdelitev uporabimo za modeliranje verjetja, pričakovano vrednost pa izrazimo kot eksponent linearne kombinacije vhodnih podatkov. Poissonova, logistična in linearna regresija so primeri generaliziranih linearnih modelov (GLM), ki z ustrezno izbiro povezovalne funkcije omogočajo enoten pristop k modeliranju različnih vrst podatkov.

Zapiski predavatelja

Poissonova regresija in generalizirani linearni modeli

Koda

GitHub repozitorij

PyTorch, regularizacija in odkrivanje znanj z rangiranjem značilk

Pravzaprav je v tem poglavju veliko več, kot obljublja naslov. Zanj namreč spišemo kodo, ki za oceno vrednosti meta spremenljivk učenja uporabi notranje prečno preverjanje. To storimo postopoma in sproti spoznavamo uporabo knjižnice PyTorch in organizacijo kode tako, da je ta čim bolj podobna gradnji razredov za učenje, kot jih pozna scikit-learn. Kot primer, ki nam služi razmišljanju o postopkih ocenjevanja parametrov učenja, uvedemo regularizacijo.

Zapiski predavatelja

PyTorch, regularizacija in odkrivanje znanj z rangiranjem značilk

Koda

GitHub repozitorij

Čas, polno povezane nevronske in konvolucijske mreže

V poglavju obravnavamo uporabo globokega učenja za analizo časovnih vrst na primeru simuliranih EKG signalov z različnimi vrstami srčnih aritmij. Pojasnimo pripravo podatkov in oblikovanje vhodov za PyTorch modele, nato predstavimo klasifikacijo z večplastno perceptronsko mrežo ter uporabo konvolucijske nevronske mreže za učinkovito zaznavanje lokalnih vzorcev v signalih. Primerjamo kompleksnost obeh pristopov in razložimo učne postopke ter ovrednotimo rezultate.

Zapiski predavatelja

Modeli na časovnih vrstah

Koda

GitHub repozitorij

Samokodirniki

Samokodirnik je nevronska mreža, ki se brez nadzora uči stisniti podatke v latentni prostor in jih nato rekonstruirati; sestavljajo ga kodirnik, ozko grlo in dekodirnik. Klasični samokodirnik deluje deterministično in optimizira rekonstrukcijsko napako (npr. MSE), pri čemer smo njegovo delovanje preučevali na primeru časovnih vrst. Tudi preprosta arhitektura omogoča učinkovito ločevanje razredov v latentnem prostoru, čeprav učenje poteka brez uporabe razrednih oznak. Variacijski avtoenkoder (VAE) razširi ta pristop z učenjem porazdelitve v latentnem prostoru (povprečje in varianca) namesto točke, kar omogoča generativno modeliranje in strukturiran prostor. Učenje VAE temelji na kombinaciji rekonstrukcijske izgube in Kullback-Leiblerjeve divergence, reparametrizacijski trik pa omogoča odvajanje skozi vzorčenje. Rezultat je model, ki poleg rekonstrukcije omogoča tudi smiselno generiranje novih primerov.

Zapiski predavatelja

Samokodirniki

Koda

GitHub repozitorij

Razložljivost

Razložljivost v strojnem učenju pomeni sposobnost modela, da človeku utemelji svoje odločitve; potrebujemo jo za nadzor, zaupanje, pravičnost in skladnost z regulativo, še posebej v občutljivih domenah. Ločimo med globalno in lokalno razlago modela. Med razložljive modele sodijo linearne metode in odločitvena drevesa. Pri kompleksnejših modelih, kot so nevronske mreže ali naključni gozdovi, se poslužujemo posebnih tehnik razlage. Ena ključnih metod je SHAP, ki temelji na Shapleyjevih vrednostih; ta vsakemu vhodnemu atributu pripiše povprečen prispevek k napovedi, upoštevajoč vse kombinacije drugih atributov. SHAP je teoretično utemeljen, a računsko zahteven; v praksi uporabljamo približke. Vrednosti SHAP lahko učinkovito prikažemo v grafih, tudi za časovne vrste, kar omogoča vpogled v vpliv posameznih delov vhodnega signala.

Zapiski predavatelja

Razložljivost

Koda

GitHub repozitorij

Osnutek odseka