Predmet: Uvod v odkrivanje znanj iz podatkov

Oris teme

Splošno

Skrči vse Razširi vse
Predavatelj: Blaž Zupan (blaz.zupan@fri.uni-lj.si)

Asistenti: Marko Toplak (marko.toplak@fri.uni-lj.si), Martin Špendl, Jaka Kokošar

Komunikacija v zvezi s predmetom, nalogami, snovjo in vsem ostalim poteka po Slacku, vabilo smo vam poslali dan pred predavanji. Če ga slučajno niste prejeli, se obrnite na predavatelja med kakšnim odmorom med predavanji.

Predavanja potekajo v živo. Jih ne snemamo. Zoom predavanj ne bo.

Vaje pri predmetu bodo kombinacija konzultacij in (po potrebi) kratkih tečajev o praktičnih temah, ki bodo povezane z izvedbo domačih nalog. Na konzultacijah na začetku v skupini razpravljamo o snovi oziroma nalogah, kasneje pa delamo individualno. Govorilne ure so na voljo ob predhodnem dogovoru preko Slacka ali elektronske pošte.

Ocenjevanje: Ocena predmeta je sestavljena iz ocen domačih nalog in pisnega izpita. Pozitivna ocena domačih nalog (študent je zbral več kot 60% možnih točk) je pogoj za pristop k izpitu. Ocena predmeta je pozitivna, če je pozitivna tako ocena domačih nalog kot pisnega izpita (zbranih več kot 60% možnih točk pri domačih nalogah in več kot 60% možnih točk pri izpitu). Bonusi iz domačih nalog se ne prenašajo na pisni izpit (in obratno). Združena ocena domačih nalog in izpita v odstotnih točkah, kjer je DN ocena domačih nalog in I ocena izpita v odstotnih točkah se izračuna po enačbi: ocena [odstotne točke] = max( min(DN+15, I), min(DN, I+15) ). Primer: 85% točk iz domačih nalog, 65% iz izpita, ocena je 80%. Še en primer: pisni izpit 90%, domače naloge 65%, ocena je 80%. Zaokrožene odstotne točke (celo število) se prevedejo v končno oceno pri predmetu. Do 60 točk: ocena 5, od 61 do 68: ocena 6, od 69 do 76: 7, od 77 do 84: 8, od 85 do 92: 9, od 93 točk: ocena 10. Vpis ocene bo potekal v izpitnem obdobju hkrati z ustnim izpitom, ki bo na voljo za vse, ki bi radi spremenili oceno.

Domače naloge

Domače naloge bodo projektne, predvidoma bodo to tri domače naloge, ocenjevanje je na ustnih zagovorih ter z deponiranjem vaše kode. Če odkrijemo prepisovanje, dobita tako avtor kot prepisovalec negativne točke, ki so po absolutni vrednosti enake maksimalnim možnim točkam za to nalogo. Za vsako odkrito prepisovanje krajše naloge se vaša ocena iz nalog s prve točke zmanjša za 20 odstotnih točk.

Literatura

zapiski predavatelja

dodatna gradiva, objavljena na tej spletni strani

Priporočena dodatna gradiva in tečaji (neobvezno, a za vsa radovedne):

Janez Demšar (2009) Python za programerje. Knjiga, namenjena tem, ki že znajo programirati v kakem drugem jeziku. Kdor ima raje verzijo na papirju, jo lahko kupi pod menzo za ceno cca dveh kosil.

Luciano Ramalho (2015) Fluent Python, O'Reilly Media. Lahko tudi Early Release 2014, ki je bil nekaj časa prosto dostopen na webu. Debela bukla, skoraj enciklopedija, a s super primeri in triki.

Tečaji s področij strojnega učenja, analize podatkov, nevronskih mrež dostopni na raznih MOOCih.

Primeri izpitov

Izpiti iz prejšnjih let. Stari izpiti vsebujejo tudi naloge s področja podpore odločanja, ki ga v predmetu več ne obravnavamo. V šolskem letu 2021/22 smo prešli na nov tip izpita z večjim številom vprašanj in izbirnimi odgovori. Primere takih izpitov bomo objavili tu pred koncem semestra.

Odkrivanje skupin

Odkrivanje skupin je eden od temeljnih postopkov, ki jih uporabljamo pri analizi podatkov. Odkrivamo lahko skupine uporabnikov glede na njihove uporabniške profile (uporaba storitev, nakupovalne košarice, vzorci obnašanja, stiki v družabnih omrežij), stvari (profili zanimanja uporabnikov, semantične podobnosti), dokumentov (glede na besedilo, ključne besede, zanimanje in ocene uporabnikov). Med številnimi algoritmi, ki se danes uporabljajo za odkrivanje skupin v podatkih, je prav gotovo najbolj znan algoritem hierarhičnega razvrščanja v skupine. Najbrž zaradi njegovi enostavnosti in pa zaradi tega, ker je njegove rezultate moč enostavno grafično predstaviti. Prav je, da s tem algoritmom pričnemo predmet.

Literatura

Odkrivanje skupin

Video predstavitve izbranih tem

Dodatni viri

Tan P-N, Steinbach M in Kumar V (2006) Introduction to Data Mining, osmo poglavje ( Cluster Analysis: Basic Concepts and Algorithms)
Segaran T (2007) Programming Collective Intelligence, tretje poglavje (Discovering groups)
Ester M, Kriegel H-P, Sander J, Xu X (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–231.

Podatki in koda

Učni množici podatkov (učenci in ocene pri predmetih): grades-two.csv in grades.csv
Hierarhično razvrščanje v skupine

Metoda voditeljev

Hierarhično gručenje lahko zaradi časovne in prostorske kompleksnosti algoritma uporabljamo samo na manjših množicah podatkov. Gručenje, ki ga lahko uporabimo tudi na velikih množicah podatkov uporablja metodo voditeljev, ki pa od uporabnika zahteva, da vnaprej poda število gruč. Iskanje primernega števila voditeljev lahko avtomatiziramo z oceno kvalitete razbitja. Ena od preprostejših mer uporablja pristop silhuete.

Literatura

Metoda voditeljev (zapiski predavatelja)

Predavanja

Dodatni viri

Tan P-N, Steinbach M in Kumar V (2006) Introduction to Data Mining, osmo poglavje ( Cluster Analysis: Basic Concepts and Algorithms)

Podatki in koda

Pohitreno hierarhično razvrščanje v skupine, silhueta, k-means

Course Activities

Nedavno dostopani predmeti

Oris teme

Splošno

Odkrivanje skupin

Metoda voditeljev