Preskoči na glavno vsebino
Učilnica FRI 24/25
  • Domov
  • Več
Zapri
Preklopi iskalni vnos
Slovenščina ‎(sl)‎
English ‎(en)‎ Slovenščina ‎(sl)‎ Македонски ‎(mk)‎ Русский ‎(ru)‎ 한국어 ‎(ko)‎
Trenutno uporabljate gostujoči dostop
Prijavite se
Učilnica FRI 24/25
Domov
Razširi vse Skrči vse
  1. uozp
  2. Splošno
  3. 2. projekt: napovedovanje števila komentarjev na rtvslo.si

2. projekt: napovedovanje števila komentarjev na rtvslo.si

Zahteve zaključka
Odprto: torek, 15. april 2025, 00.00
Rok za oddajo: ponedeljek, 12. maj 2025, 23.59

V sklopu domače naloge boste zgradili model, ki bo napovedoval število komentarjev pod članki na spletnem portalu rtvslo.si. Strukturo podatkov sicer že poznate, vsekakor pa uporabite tiste s tekmovalnega strežnika. Tam najdete dvoje podatkov:

  • učne podatke, na katerih boste gradili vaše modele, in
  • testne podatke, za katere boste morali izdelati čim boljše napovedi.

Geslo za tekmovalno stran smo vam poslali na elektronski naslov, s katerim ste se prijavili na učilnico. Če ga ne najdete, pišite na marko.toplak@fri.uni-lj.si.

Svojo kodo shranjujte na Github classroom repozitorij.

Uporabite lahko kakršnekoli metode za gradnjo značilk. Vaš model je prav tako lahko poljuben, a zanj morate nujno uporabiti knjižnico pyTorch. Pazite na naslednje:

  • Vaša koda mora delovati brez internetne povezave. (Namestitev knjižnic oziroma modelov, ki jih knjižnice potrebujejo, je seveda dovoljena).
  • Omogočite nam, da lahko vaše napoved ponovimo: če vašo kodo poženemo, moramo dobiti zelo podobne napovedi (idealno bi bilo dobiti čisto iste, a to s PyTorchom včasih ne gre).
  • Goljufanje v smislu gledanja števila komentarjev, ki jih za testne podatke lahko preberete s spletne strani, bo kaznovano.
  • V README.md opišite, kako uporabljamo vašo kodo oziroma kako naj si pripravimo okolje, da vašo kodo poženemo.

Pomembno. Končni model implementirate v skripto final.py. Skripta nam bo omogočila, da bomo vaše napovedi replicirali ali pognali na novih podatkih. Implementirajte model v funkcijah RTVSlo.fit in RTVSlo.predict, ki obe prejmeta surov prebran .json, zato morate vsebovati vso potrebno procesiranje (example.py vsebuje primer implementacije).

Pojasnilo o oddaji (30. april). Vaša oddaja mi mora omogočiti, da v času zagovora (okoli 10 minut) generiram napovedi za 1 mesec veliko testno množico, zato boste morali, če se vaš model trenira dlje, v repozitorij shraniti naučeno verzijo modela. Vaša celotna oddaja mora biti shranjena v Github repozitoriju, ki vam ga je ustvarila učilnica, in to brez uporabe Git LFS. Bodite pozorni, da vaš model ni večji kot 100MB, sicer ga ne boste mogli oddati.

Točkovanje

  • [10%] Opis modela in priprave kode. Kratek opis končnega modela in opis odločitev, ki so vas do njega privedle (kaj vse ste preizkušali). Pri kodi ocenjujemo, kako lahko jo je razumeti in pognati.
  • [20%] Vrednotenje modela. Kako ste lokalno ovrednotili točnost modela? Kako ste izbrali ustrezne hiperparametre? Ocenjujemo kakovost vašega vrednotenja glede na podan problem na tekmovanju.
  • [20%] Razlaga modela. Razložite, kako vaš zgrajen model napoveduje. Tip razlage napovedovanja je seveda odvisna od vrste modela.
  • [20%] Rezultat, ki je na lestvici nekje toliko dober kot baseline ali boljši. (Baseline model je dobljen z regularizirano linearno regresijo. Kot značilke uporablja dan v tednu, uro, topic, subtopic (iz ULRja) in besedilo procesirano s TF-IDF. Namesto števila komentarjev napoveduje koren števila komentarjev, ker se to izkaže kot boljše za MAE.)
  • [30%] Rezultat na tekmovanju. Za oceno šteje končni rezultat, ki ga boste videli šele po koncu tekmovanja.

Nekaj najboljših bomo dodatno nagradili z bonus točkami.

Oddaja

Na strani tekmovanja oddajte končne napovedi, na spletni učilnici predstavitev (namenjeno 3-minutni predstavitvi, s fokusom na prvih treh postavkah, torej na opisu, vrednotenju in razlagi modela), na Github repozitorij pa vašo kodo.

V final.py implementirajte končni model. Ostale analize, vrednotenje ali iskanje najboljših parametrov, pa izvajajte ločeno (lahko tudi v notebook obliki). Vse to oddajte v vaš Github repozitorij, kamor pa ne oddajajte izvirnih učnih in testnih podatkov.

Oddajte tudi .pdf z zgoraj omenjenim opisom rešitve.

Trenutno uporabljate gostujoči dostop (Prijavite se)
Pridobi mobilno aplikacijo
Stran poganja Moodle
Obvestilo o avtorskih pravicah