Informacije o predmetu | Iskanje in ekstrakcija podatkov s spleta

Iskanje in ekstrakcija podatkov s spleta

Splet je skoraj neomejen vir podatkov. Z uporabo iskalnikov, kot so Google, Bing in podobni, lahko hitro najdemo vsebine, ki nas zanimajo. Vendar je teh zelo veliko in pogosto si ne moremo privoščiti, da bi prebrali vse spletne strani, ki nam jih kot zadetke na neko poizvedbo vrne iskalnik. Rešitev so računalniški programi, ki znajo iz velikih količin nestrukturiranih ali delno strukturiranih podatkov (kar je tudi splet) izluščiti relevantne informacije in nam jih posredovati v strukturirani obliki.

CILJ PREDMETA

Cilj predmeta Iskanje in ekstrakcija podatkov s spleta je študente naučiti, kako razviti računalniške programe za iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljenem predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in izluščijo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

VSEBINA

Glavne teme, ki jih bomo obravnavali, zajemajo:

It is expected from students that they know at least basics of program languages and technologies such as, Java, JavaScript, Python, HTML, CSS, web page structure.

COURSE GRADING
For a positive grade at this course students are expected to successfully finish three projects (seminars) and written examination (at least 50% of all points) .

nosilec: Marko Bajec