Introduction to Data Mining
Section outline
-
Predavatelj: Blaž Zupan (blaz.zupan@fri.uni-lj.si)
Asistenti: Marko Toplak (marko.toplak@fri.uni-lj.si)
Predavanja potekajo v živo.
Vaje pri predmetu bodo kombinacija konzultacij in (po potrebi) kratkih tečajev o praktičnih temah, ki bodo povezane z izvedbo domačih nalog. Na konzultacijah na začetku v skupini razpravljamo o snovi oziroma nalogah, kasneje pa delamo individualno.
Ocenjevanje: Ocena predmeta je sestavljena iz ocen domačih nalog in pisnega izpita. Pozitivna ocena domačih nalog (študent je zbral več kot 60% možnih točk) je pogoj za pristop k izpitu. Ocena predmeta je pozitivna, če je pozitivna tako ocena domačih nalog kot pisnega izpita (zbranih več kot 60% možnih točk pri domačih nalogah in več kot 60% možnih točk pri izpitu). Bonusi iz domačih nalog se ne prenašajo na pisni izpit (in obratno). Združena ocena domačih nalog in izpita v odstotnih točkah, kjer je DN ocena domačih nalog in I ocena izpita v odstotnih točkah se izračuna po enačbi: ocena [odstotne točke] = max( min(DN+15, I), min(DN, I+15) ). Primer: 85% točk iz domačih nalog, 65% iz izpita, ocena je 80%. Še en primer: pisni izpit 90%, domače naloge 65%, ocena je 80%. Zaokrožene odstotne točke (celo število) se prevedejo v končno oceno pri predmetu. Do 60 točk: ocena 5, od 61 do 68: ocena 6, od 69 do 76: 7, od 77 do 84: 8, od 85 do 92: 9, od 93 točk: ocena 10. Vpis ocene bo potekal v izpitnem obdobju hkrati z ustnim izpitom, ki bo na voljo za vse, ki bi radi spremenili oceno.
Domače naloge
V letošnjem študijskem letu boste morali rešiti eno projektno nalogo. Ocenili jo bomo na ustni predstavitvi in zagovoru. Če odkrijemo prepisovanje, dobita tako avtor kot prepisovalec negativne točke, ki so po absolutni vrednosti enake maksimalnim možnim točkam za to nalogo. Poleg projekta bodo domače naloge obsegale tudi reševanje kratkih problemov, za katere boste morali napisati ustrezno kodo. Uspešnost teh vrednotimo z programskimi testi (unit testi); nalogo štejemo kot pravilno rešeno, če opravi vse unit teste. Za vsako odkrito prepisovanje krajše naloge se vaša ocena iz projektnih nalog zmanjša za 20 odstotnih točk.
Za pristop k izpitu morate v roku opraviti vse kratke domače naloge razen ene in uspešno zagovoriti projektno nalogo. Tako domače naloge kot kratke naloge imajo svoje roke, ki jih bomo objavljali tu.
Izpiti
Izpiti potekajo v računalniških učilnicah na FRI po razporedu, ki bo objavljen tik pred rokom. Računalniki bodo brez internetne povezave. Izpitni roki so:
- rok: 11. 6. 2026, 13.00-15.00
- rok: 1. 7. 2026, 16.00-18.00
- rok: 2. 9. 2026, 12.00-14.00
Literatura
- zapiski s predavanj (zapiski osvežujemo med semestrom, na voljo je tudi repo izvornih datotek)
-
Pričnemo na začetku: z odvajanjem. Sledimo namreč ideji, da bomo prav vse modele, ki jih bomo razvili iz podatkov, pridobili s postopkom gradientnega sestopa, zanj pa moramo izračunati gradiente, oziroma parcialne odvode po parametrih modela. S strojnim učenjem in modeli se v tem poglavju še ne ukvarjamo in strojno odvajanje raje izpeljemo in tu uporabimo na preprostih primerih.
Zapiski s predavanj
-
To poglavje pravzaprav ni čisto o linearni regresiji. Je bolj o tem, kako uporabimo strojno odvajanje za gradnjo modelov iz podatkov. bomo sproti razmišljali tudi o linearni regresiji, verjetju in kriterijskih funkcijah. Začnemo z univariatno linearno regresijo, jo razširimo na multivariatno, vse skupaj poskusimo še na bolj resnih podatkih in razmislimo, ali na odkriti modeli lahko kako pomagajo pri razlagi podatkov. Zapiski s predavanj
-
Modeli strojnega učenja lahko zelo hitro izjemno dobro predstavijo podatke v učni množici. Celo tako enostaven model kot linearna regresija se lahko, s trikom dodajanja novih značilk, popolnoma prilagodi učni množici. A kako se potem to odrazi na učni množici? Tu razmišljamo o kompleksnosti in poenostavljanju modelov. Izkaže se, da so dobri modeli ravno prav kompleksni. A kako ocenimo, kaj je "ravno prav"? Srž poglavja je sicer regularizacija in gradnja enostavnejših modelov, tudi takih, ki uporabljajo samo del vhodnih značilk. Zapiski s predavanj -
V prejšnjih dveh poglavjih smo uporabili strojno odvajanje in gradientni sestop na preprostem modelu linearne regresije, ki je zaradi svoje enostavnosti in majhnem številu parametrov lahko enostaven za interpretacijo. Z regularizacijo L2 tovrstne modele lahko zgladimo, z L1 pa poenostavimo. Postavi pa se vprašanje, ali lahko podoben pristop uporabimo tudi za popolnoma drugačne tipe modelov, ne le napovedne ampak, recimo, za opisne, kjer na primer želimo predstaviti podatke v nizkodimenzionalnem prostoru. Primer takega pristopa je analiza glavnih komponent in njej in njeni uporabi posvečamo to poglavje. Zapiski s predavanj -
Podatkovne karte, ali dvodimenzionalne vložitve podatkov, so vizualno orodje za prikaz podatkov v dveh (redkeje treh) dimenzijah, namenjeno predvsem razlagi in iskanju vzorcev. Ključna razlika med projekcijami, kot je PCA, in vložitvami, kot so MDS, t-SNE in UMAP, je v tem, da so projekcije linearne in temeljijo na kombinacijah značilk, ki jih lahko razložimo, medtem ko so vložitve nelinearne in prilagojene ohranjanju razdalj ali sosedstev, pri čemer nove osi nimajo jasne razlage. Če PCA išče glavne smeri največje variance in ima analitično rešitev, vložitve skušajo ohraniti kompleksne odnose med podatki in za rešitev zahtevajo numerične metode, kot je gradientni spust. Podatkovne karte niso le vizualizacija, ampak predvsem sredstvo za razlago podatkov, saj omogočajo vpogled v skupine in odnose med primeri, pogosto v povezavi z gručami. Zapiski s predavanj -
V tem razdelku govorimo o razlagi gruč, kjer odkrijemo, da to lahko počnemo dobro le z uporabo domenskega znanja, ki ga uvedemo tako na atributnem nivoju kot na nivoju primerov. O tehnikah gručenja povzamemo le na koncu, saj predpostavimo, da študenti pri tem predmetu te že poznajo. Zapiski s predavanj
-
Tu najprej predstavimo nomograme kot preprost in intuitiven način vizualizacije modelov, nato pa pokažemo, kako se ti naravno povezujejo s posplošenimi linearnimi modeli (GLM). Vidimo, da imajo linearna, logistična in Poissonova regresija skupno strukturo — linearni napovednik in enostavno nelinearno preslikavo — kar omogoča dobro interpretacijo in pregledno grafično predstavitev. Hkrati poudarimo, da ti modeli niso pomembni le sami po sebi, temveč predstavljajo tudi osnovo sodobne umetne inteligence, saj nastopajo kot izhodni modeli in gradniki nevronskih mrež. Zapiski s predavanj
-
Posplošene linearne modele je za obravnavo kompleksnejših podatkov moč razširiti s predobdelavo z nevronskimi mrežami. V poglavju pokažemo, kako je to mogoče, uporabimo pristop s strojnim odvajanjem ter razmislimo o razlagi tovrstnih modelov. Zapiski predavatelja
-
V poglavju obravnavamo vizualizacijo podatkov kot pomemben del podatkovne znanosti, saj omogoča hitrejše razumevanje podatkov, odkrivanje vzorcev, anomalij in povezav ter učinkovito predstavitev rezultatov. Predstavimo osnovne tipe podatkov in najpogostejše vrste grafov, kot so histogrami, razsevni diagrami, črtni in stolpčni grafi ter toplotne karte. Pojasnimo tudi osnovna načela učinkovitega vizualnega oblikovanja, opozorimo na zavajajoče vizualizacije in pokažemo, kako izbira grafične predstavitve vpliva na interpretacijo podatkov. Zapiski predavatelja -
V poglavju zgradimo generativni jezikovni modele za napovedovanje naslednjega znaka v zaporedju. Začnemo z enostavnim bigramskim modelom, uvedemo verjetje in negativno log-verjetje kot kriterijsko funkcijo, nato pa pokažemo, kako lahko iste ideje implementiramo z nevronskimi mrežami in gradientnim učenjem. Poseben poudarek namenimo problemu predstavitve podatkov, kjer znake preslikamo v vložitveni prostor, ter postopoma zgradimo globoko nevronsko mrežo, ki zna pri napovedovanju upoštevati širši kontekst znakov. Zapiski s predavanj