1. domača naloga: glasovanje za Pesem Evrovizije

Glasovanje za Pesem Evrovizije je morda celo zanimivejše od samega poslušanja skladb na tem dogodku. Tisti, ki dolga leta spremljajo glasovanje, sicer pravijo, da ni najbolj objektivno (glej spodnjo ilustracijo). Predstavniki posameznih držav naj bi glasovali pristransko in pri tem favorizirali nastopajoče iz bližnjih ali sorodnih držav.

Je to res? Najenostavnejši način, da to preverimo je, da analiziramo podatke iz preteklih glasovanj. Na voljo so podatki o glasovanju v finalnem in polfinalnem delu (dobili smo jih na portalu Kaggle). Primerjaj države med sabo tako, da oceniš razdaljo med njimi glede na njihov profil (vektor) glasovanja. V programski kodi (Python) razvij postopek za hierarhično razvrščanje v skupine in izriši dendrogram držav (izris je lahko grafičen ali pa tekstovni, razviti ga moraš sam). Ali razvrščanje poišče smiselne skupine? Katere so te skupine? Za vsako od skupin navedi, katere države izbira preferenčno (jih ima raje) in katere ne, oziroma katerim državam ta skupina dodeljuje nadpovprečne oziroma podpovprečne ocene. Razumevanje in razlaga rezultatov je pomemben del tvoje domače naloge, zato se pri tem delu potrudi.

V nalogi boš moral(a) ustrezno rešiti kar nekaj problemov. Na primer, podana so glasovanja iz finalnega in polfinalnega dela. Katere podatke boš uporabil(a)? Kako jih boš zapisal(a) v primerni obliki? Kako boš združil(a) podatke iz posameznih let?

Oddaja: Oddaj eno datoteko (.zip) s poročilom o domači nalogi in celotno kodo projekta. Poročilo napiši v LaTeXu in za to nujno uporabi vzorec (glej domačo stran predmeta). Poročilo naj bo sestavljeno iz poglavja Uvod (en do osem vrstični odstavek, ki opiše nalogo oziroma problem), Metode (kratek opis uporabljene metodologije - posameznih funkcij ne opisujte, lahko pa vsebuje zanimivo pseudokodo ali pa zanimiv izsek kode v Pythonu) in Rezultati, kjer pisno (npr. v dveh odstavkih) in grafično oziroma tabelarično predstavite rezultate analize. Poročilo naj bo dolgo največ štiri strani.

Dodatno (+15%): Grafičen izris dendrograma z lepo razvidnimi razdaljami, ki ste ga v Pythonu razvili sami.

Dodatno (+15%): So rezultati analize odvisni od leta glasovanja? Vaš sklep ustrezno ovrednotite.

Dodatno (+30%): Hierarhično združevanje v skupine samo po sebi ne odkrije skupin, ampak predstavi le možno hierarhijo združevanja. Predlagaj in implementiraj tehniko, ki ugotovi, kakšno bi bilo smiselno število skupin oziroma smiselna razdalja, pri kateri bi "prerezal" dendrogram. Pri oceni razdalje si lahko pomagaš s permutacijskim testom. V poročilo o domači nalogi vključi tako opis tvoje tehnike, kot tudi rezultate, ki jih opremi s primernimi grafičnimi prikazi.