Povzetek Obdelava naravnega jezika

Obdelava naravnega jezika

Vsebina predmeta temelji na izboru sodobnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.

Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statistični pristop, pregled področja, težav in uspehov
Predprocesiranje in normalizacija teksta: uporaba regularnih izrazov (avtomatov) za iskanje in zamenjavo nizov, gramatike za prepoznavanje sintakse, podobnost nizov, Levenhsteinova razdalja
Klasični jezikovni modeli: n-grami, lematizacija, leksikoni besednih oblik
Vektorske predstavitve besedil: tf-idf, goste predstavitve word2vec
Globoka omrežja in besedila: rekurzivne in konvolucijske nevronske mreže za besedila
Nevronski jezikovni modeli: ELMo, BERT,
Medjezikovne vektorske vložitve
Oblikoslovno označevanje in skladenjsko razčlenjevanje za angleščino in slovenščino,
Leksikalna semantika in razdvoumljanje
Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, WordNet, pregled orodij in repozitorijev, luščenje terminologije.
Prepoznavanje imenskih entitet (NER) in označevanje udeleženskih vlog (SRL)
Tekstovno rudarjenje: prilagojene klasifikacijske metode, metodologija in evalvacija
Analiza čustev
Odgovori na vprašanja
Povzemanje: predstavitve besedil, matrična faktorizacija, abstraktivne, ekstrakcijske metode in povpraševane metode.
Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju.

Obveznosti pri predmetu obsegajo pet spletnih kvizov in tri seminarske naloge z roki z oddajo v aprilu, maju in juniju.

nosilec: Marko Robnik Šikonja