Introduction to Data Mining
Section outline
-
Predavatelj: Blaž Zupan (blaz.zupan@fri.uni-lj.si)
Asistenti: Marko Toplak (marko.toplak@fri.uni-lj.si)
Predavanja potekajo v živo. S predavanji pričnemo 23. 2. 2026 (predavanja 16. 2. 2026 ni zaradi popravil sistema ogrevanja na UL FRI).
Vaje pri predmetu bodo kombinacija konzultacij in (po potrebi) kratkih tečajev o praktičnih temah, ki bodo povezane z izvedbo domačih nalog. Na konzultacijah na začetku v skupini razpravljamo o snovi oziroma nalogah, kasneje pa delamo individualno.
Ocenjevanje: Ocena predmeta je sestavljena iz ocen domačih nalog in pisnega izpita. Pozitivna ocena domačih nalog (študent je zbral več kot 60% možnih točk) je pogoj za pristop k izpitu. Ocena predmeta je pozitivna, če je pozitivna tako ocena domačih nalog kot pisnega izpita (zbranih več kot 60% možnih točk pri domačih nalogah in več kot 60% možnih točk pri izpitu). Bonusi iz domačih nalog se ne prenašajo na pisni izpit (in obratno). Združena ocena domačih nalog in izpita v odstotnih točkah, kjer je DN ocena domačih nalog in I ocena izpita v odstotnih točkah se izračuna po enačbi: ocena [odstotne točke] = max( min(DN+15, I), min(DN, I+15) ). Primer: 85% točk iz domačih nalog, 65% iz izpita, ocena je 80%. Še en primer: pisni izpit 90%, domače naloge 65%, ocena je 80%. Zaokrožene odstotne točke (celo število) se prevedejo v končno oceno pri predmetu. Do 60 točk: ocena 5, od 61 do 68: ocena 6, od 69 do 76: 7, od 77 do 84: 8, od 85 do 92: 9, od 93 točk: ocena 10. Vpis ocene bo potekal v izpitnem obdobju hkrati z ustnim izpitom, ki bo na voljo za vse, ki bi radi spremenili oceno.
Domače naloge
Domače naloge bodo projektne, predvidoma bodo to tri domače naloge, ocenjevanje je na ustnih zagovorih ter z deponiranjem vaše kode. Če odkrijemo prepisovanje, dobita tako avtor kot prepisovalec negativne točke, ki so po absolutni vrednosti enake maksimalnim možnim točkam za to nalogo. Za vsako odkrito prepisovanje krajše naloge se vaša ocena iz nalog s prve točke zmanjša za 20 odstotnih točk. Poleg treh projektov bodo domače naloge obsegale tudi reševanje kratkih problemov, za katere boste morali napisati ustrezno kodo. Uspešnost teh vrednotimo z programskimi testi (unit testi); nalogo štejemo kot pravilno rešeno, če opravi vse unit teste.
Za pristop k izpitu morate v roku opraviti vse kratke domače naloge razen ene in vse tri uspešno zagovorjene projektne domače naloge.. Tako domače naloge kot kratke naloge imajo svoje roke, ki jih bomo objavljali tu.
Literatura
na voljo bodo zapiski s predavanje, objava teh sledi
dodatna gradiva, objavljena na tej spletni strani
-
Pričnemo na začetku: z odvajanjem. Sledimo namreč ideji, da bomo prav vse modele, ki jih bomo razvili iz podatkov, pridobili s postopkom gradientnega sestopa, zanj pa moramo izračunati gradiente, oziroma parcialne odvode po parametrih modela. S strojnim učenjem in modeli se v tem poglavju še ne ukvarjamo in strojno odvajanje raje izpeljemo in tu uporabimo na preprostih primerih.
Zapiski s predavanj
-
To poglavje pravzaprav ni čisto o linearni regresiji. Je bolj o tem, kako uporabimo strojno odvajanje za gradnjo modelov iz podatkov. bomo sproti razmišljali tudi o linearni regresiji, verjetju in kriterijskih funkcijah. Začnemo z univariatno linearno regresijo, jo razširimo na multivariatno, vse skupaj poskusimo še na bolj resnih podatkih in razmislimo, ali na odkriti modeli lahko kako pomagajo pri razlagi podatkov. Zapiski s predavanj
-
Modeli strojnega učenja lahko zelo hitro izjemno dobro predstavijo podatke v učni množici. Celo tako enostaven model kot linearna regresija se lahko, s trikom dodajanja novih značilk, popolnoma prilagodi učni množici. A kako se potem to odrazi na učni množici? Tu razmišljamo o kompleksnosti in poenostavljanju modelov. Izkaže se, da so dobri modeli ravno prav kompleksni. A kako ocenimo, kaj je "ravno prav"? Srž poglavja je sicer regularizacija in gradnja enostavnejših modelov, tudi takih, ki uporabljajo samo del vhodnih značilk. Zapiski s predavanj -
V prejšnjih dveh poglavjih smo uporabili strojno odvajanje in gradientni sestop na preprostem modelu linearne regresije, ki je zaradi svoje enostavnosti in majhnem številu parametrov lahko enostaven za interpretacijo. Z regularizacijo L2 tovrstne modele lahko zgladimo, z L1 pa poenostavimo. Postavi pa se vprašanje, ali lahko podoben pristop uporabimo tudi za popolnoma drugačne tipe modelov, ne le napovedne ampak, recimo, za opisne, kjer na primer želimo predstaviti podatke v nizkodimenzionalnem prostoru. Primer takega pristopa je analiza glavnih komponent in njej in njeni uporabi posvečamo to poglavje. Zapiski s predavanj