Курс: Introduction to Data Mining

Section outline

Select section Основно

Затвори Зголеми
Основно

Затвори ги сите Прошири ги сите
Predavatelj: Blaž Zupan (blaz.zupan@fri.uni-lj.si)

Asistenti: Marko Toplak (marko.toplak@fri.uni-lj.si)

Predavanja potekajo v živo.

Vaje pri predmetu bodo kombinacija konzultacij in (po potrebi) kratkih tečajev o praktičnih temah, ki bodo povezane z izvedbo domačih nalog. Na konzultacijah na začetku v skupini razpravljamo o snovi oziroma nalogah, kasneje pa delamo individualno.

Ocenjevanje: Ocena predmeta je sestavljena iz ocen domačih nalog in pisnega izpita. Pozitivna ocena domačih nalog (študent je zbral več kot 60% možnih točk) je pogoj za pristop k izpitu. Ocena predmeta je pozitivna, če je pozitivna tako ocena domačih nalog kot pisnega izpita (zbranih več kot 60% možnih točk pri domačih nalogah in več kot 60% možnih točk pri izpitu). Bonusi iz domačih nalog se ne prenašajo na pisni izpit (in obratno). Združena ocena domačih nalog in izpita v odstotnih točkah, kjer je DN ocena domačih nalog in I ocena izpita v odstotnih točkah se izračuna po enačbi: ocena [odstotne točke] = max( min(DN+15, I), min(DN, I+15) ). Primer: 85% točk iz domačih nalog, 65% iz izpita, ocena je 80%. Še en primer: pisni izpit 90%, domače naloge 65%, ocena je 80%. Zaokrožene odstotne točke (celo število) se prevedejo v končno oceno pri predmetu. Do 60 točk: ocena 5, od 61 do 68: ocena 6, od 69 do 76: 7, od 77 do 84: 8, od 85 do 92: 9, od 93 točk: ocena 10. Vpis ocene bo potekal v izpitnem obdobju hkrati z ustnim izpitom, ki bo na voljo za vse, ki bi radi spremenili oceno.

Domače naloge

V letošnjem študijskem letu boste morali rešiti eno projektno nalogo. Ocenili jo bomo na ustni predstavitvi in zagovoru. Če odkrijemo prepisovanje, dobita tako avtor kot prepisovalec negativne točke, ki so po absolutni vrednosti enake maksimalnim možnim točkam za to nalogo. Poleg projekta bodo domače naloge obsegale tudi reševanje kratkih problemov, za katere boste morali napisati ustrezno kodo. Uspešnost teh vrednotimo z programskimi testi (unit testi); nalogo štejemo kot pravilno rešeno, če opravi vse unit teste. Za vsako odkrito prepisovanje krajše naloge se vaša ocena iz projektnih nalog zmanjša za 20 odstotnih točk.

Za pristop k izpitu morate v roku opraviti vse kratke domače naloge razen ene in uspešno zagovoriti projektno nalogo. Tako domače naloge kot kratke naloge imajo svoje roke, ki jih bomo objavljali tu.

Izpiti

Izpiti potekajo v računalniških učilnicah na FRI po razporedu, ki bo objavljen tik pred rokom. Računalniki bodo brez internetne povezave. Izpitni roki so:

rok: 11. 6. 2026, 13.00-15.00

rok: 1. 7. 2026, 16.00-18.00

rok: 2. 9. 2026, 12.00-14.00

Primeri izpitnih nalog

Literatura

zapiski s predavanj (zapiski osvežujemo med semestrom, na voljo je tudi repo izvornih datotek)
- Select activity Obvestila
  
  Obvestila Форум
- Select activity Foruma
  
  Foruma Форум
- Select activity 1. kratka naloga: autograd
  
  1. kratka naloga: autograd Задача
- Select activity 2. kratka naloga: linreg
  
  2. kratka naloga: linreg Задача
- Select activity 3. kratka naloga: stopnja regularizacije
  
  3. kratka naloga: stopnja regularizacije Задача
- Select activity 4. kratka naloga: 1-D MDS
  
  4. kratka naloga: 1-D MDS Задача
- Select activity Projekt
  
  Projekt Задача
- Select activity Projekt: "pitch"
  
  Projekt: "pitch" Задача
- Select activity 5. kratka naloga: razlaga t-SNE
  
  5. kratka naloga: razlaga t-SNE Задача
- Select activity Projekt: odkrivanje znanj, metode, vizualizacije in razlaga
  
  Projekt: odkrivanje znanj, metode, vizualizacije in razlaga Задача
- Select activity Izbira termina za predstavitev: Projekt: odkrivanje znanj, metode, vizualizacije in razlaga
  
  Izbira termina za predstavitev: Projekt: odkrivanje znanj, metode, vizualizacije in razlaga Агенда
- Select activity Izbira termina za zagovor: Projekt
  
  Izbira termina za zagovor: Projekt Агенда
- Select activity 6. kratka naloga: Poissonova regresija
  
  6. kratka naloga: Poissonova regresija Задача
- Select activity Testni izpit - preizkus izpitnega okolja
  
  Testni izpit - preizkus izpitnega okolja Задача
- Select activity Izpit - 1. rok
  
  Izpit - 1. rok Задача

Strojno odvajanje

Pričnemo na začetku: z odvajanjem. Sledimo namreč ideji, da bomo prav vse modele, ki jih bomo razvili iz podatkov, pridobili s postopkom gradientnega sestopa, zanj pa moramo izračunati gradiente, oziroma parcialne odvode po parametrih modela. S strojnim učenjem in modeli se v tem poglavju še ne ukvarjamo in strojno odvajanje raje izpeljemo in tu uporabimo na preprostih primerih.

Zapiski s predavanj

Primer uporabe: linearna regresija

To poglavje pravzaprav ni čisto o linearni regresiji. Je bolj o tem, kako uporabimo strojno odvajanje za gradnjo modelov iz podatkov. bomo sproti razmišljali tudi o linearni regresiji, verjetju in kriterijskih funkcijah. Začnemo z univariatno linearno regresijo, jo razširimo na multivariatno, vse skupaj poskusimo še na bolj resnih podatkih in razmislimo, ali na odkriti modeli lahko kako pomagajo pri razlagi podatkov.

Zapiski s predavanj

Linearna regresija

Regularizacija in izbor značilk

Modeli strojnega učenja lahko zelo hitro izjemno dobro predstavijo podatke v učni množici. Celo tako enostaven model kot linearna regresija se lahko, s trikom dodajanja novih značilk, popolnoma prilagodi učni množici. A kako se potem to odrazi na učni množici? Tu razmišljamo o kompleksnosti in poenostavljanju modelov. Izkaže se, da so dobri modeli ravno prav kompleksni. A kako ocenimo, kaj je "ravno prav"? Srž poglavja je sicer regularizacija in gradnja enostavnejših modelov, tudi takih, ki uporabljajo samo del vhodnih značilk.

Zapiski s predavanj

Regularizacija in izbor značilk

Glavne komponente

V prejšnjih dveh poglavjih smo uporabili strojno odvajanje in gradientni sestop na preprostem modelu linearne regresije, ki je zaradi svoje enostavnosti in majhnem številu parametrov lahko enostaven za interpretacijo. Z regularizacijo L2 tovrstne modele lahko zgladimo, z L1 pa poenostavimo. Postavi pa se vprašanje, ali lahko podoben pristop uporabimo tudi za popolnoma drugačne tipe modelov, ne le napovedne ampak, recimo, za opisne, kjer na primer želimo predstaviti podatke v nizkodimenzionalnem prostoru. Primer takega pristopa je analiza glavnih komponent in njej in njeni uporabi posvečamo to poglavje.

Zapiski s predavanj

Glavne komponente

Dvodimenzionalne vložitve podatkov

Podatkovne karte, ali dvodimenzionalne vložitve podatkov, so vizualno orodje za prikaz podatkov v dveh (redkeje treh) dimenzijah, namenjeno predvsem razlagi in iskanju vzorcev. Ključna razlika med projekcijami, kot je PCA, in vložitvami, kot so MDS, t-SNE in UMAP, je v tem, da so projekcije linearne in temeljijo na kombinacijah značilk, ki jih lahko razložimo, medtem ko so vložitve nelinearne in prilagojene ohranjanju razdalj ali sosedstev, pri čemer nove osi nimajo jasne razlage. Če PCA išče glavne smeri največje variance in ima analitično rešitev, vložitve skušajo ohraniti kompleksne odnose med podatki in za rešitev zahtevajo numerične metode, kot je gradientni spust. Podatkovne karte niso le vizualizacija, ampak predvsem sredstvo za razlago podatkov, saj omogočajo vpogled v skupine in odnose med primeri, pogosto v povezavi z gručami.

Zapiski s predavanj

Dvodimenzionalne vložitve podatkov

Gručenje in razlaga gruč

V tem razdelku govorimo o razlagi gruč, kjer odkrijemo, da to lahko počnemo dobro le z uporabo domenskega znanja, ki ga uvedemo tako na atributnem nivoju kot na nivoju primerov. O tehnikah gručenja povzamemo le na koncu, saj predpostavimo, da študenti pri tem predmetu te že poznajo.

Zapiski s predavanj

Gručenje in razlaga gruč

Nomogrami in posplošeni linearni modeli

Tu najprej predstavimo nomograme kot preprost in intuitiven način vizualizacije modelov, nato pa pokažemo, kako se ti naravno povezujejo s posplošenimi linearnimi modeli (GLM). Vidimo, da imajo linearna, logistična in Poissonova regresija skupno strukturo — linearni napovednik in enostavno nelinearno preslikavo — kar omogoča dobro interpretacijo in pregledno grafično predstavitev. Hkrati poudarimo, da ti modeli niso pomembni le sami po sebi, temveč predstavljajo tudi osnovo sodobne umetne inteligence, saj nastopajo kot izhodni modeli in gradniki nevronskih mrež.

Zapiski s predavanj

Nomogrami in posplošeni linearni modeli

Nevronske mreže in poskusi razlag kompleksnih modelov

Posplošene linearne modele je za obravnavo kompleksnejših podatkov moč razširiti s predobdelavo z nevronskimi mrežami. V poglavju pokažemo, kako je to mogoče, uporabimo pristop s strojnim odvajanjem ter razmislimo o razlagi tovrstnih modelov.

Zapiski predavatelja

Nevronske mreže in poskusi razlag kompleksnih modelov

Vizualizacija podatkov

V poglavju obravnavamo vizualizacijo podatkov kot pomemben del podatkovne znanosti, saj omogoča hitrejše razumevanje podatkov, odkrivanje vzorcev, anomalij in povezav ter učinkovito predstavitev rezultatov. Predstavimo osnovne tipe podatkov in najpogostejše vrste grafov, kot so histogrami, razsevni diagrami, črtni in stolpčni grafi ter toplotne karte. Pojasnimo tudi osnovna načela učinkovitega vizualnega oblikovanja, opozorimo na zavajajoče vizualizacije in pokažemo, kako izbira grafične predstavitve vpliva na interpretacijo podatkov.

Zapiski predavatelja

Vizualizacija podatkov

Generativni modeli in problem predstavitve

V poglavju zgradimo generativni jezikovni modele za napovedovanje naslednjega znaka v zaporedju. Začnemo z enostavnim bigramskim modelom, uvedemo verjetje in negativno log-verjetje kot kriterijsko funkcijo, nato pa pokažemo, kako lahko iste ideje implementiramo z nevronskimi mrežami in gradientnim učenjem. Poseben poudarek namenimo problemu predstavitve podatkov, kjer znake preslikamo v vložitveni prostor, ter postopoma zgradimo globoko nevronsko mrežo, ki zna pri napovedovanju upoštevati širši kontekst znakov.

Zapiski s predavanj

Generativni modeli in problem predstavitve