Splet je skoraj neomejen vir podatkov. Z uporabo iskalnikov, kot so Google, Bing in podobni, lahko hitro najdemo vsebine, ki nas zanimajo. Vendar je teh zelo veliko in pogosto si ne moremo privoščiti, da bi prebrali vse spletne strani, ki nam jih kot zadetke na neko poizvedbo vrne iskalnik. Rešitev so računalniški programi, ki znajo iz velikih količin nestrukturiranih ali delno strukturiranih podatkov (kar je tudi splet) izluščiti relevantne informacije in nam jih posredovati v strukturirani obliki.

CILJ PREDMETA

Cilj predmeta Iskanje in ekstrakcija podatkov s spleta je študente naučiti, kako razviti računalniške programe za iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljenem predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in izluščijo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

VSEBINA

Glavne teme, ki jih bomo obravnavali, zajemajo:

  • Combining Similarities, 1:m Match, Integration of Web Query Interfaces, Constructing a Unified Global Query Interface...) 
  • Opinion Mining and Sentiment Analysis (Document Sentiment Classification, Sentence Subjectivity and Sentiment Classification, Opinion Lexicon Expansion, Aspect-Based Opinion Mining...)

REQUIRED KNOWLEDGE

It is expected from students that they know at least basics of program languages and technologies such as, Java, JavaScript, Python, HTML, CSS, web page structure.  


COURSE GRADING
For a positive grade at this course students are expected to successfully finish two homework's, project work and written examination (at least 50% of all points) .