Vsebina predmeta temelji na izboru sodobnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.
- Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statistični pristop, pregled področja, težav in uspehov
- Predprocesiranje in normalizacija teksta: uporaba regularnih izrazov (avtomatov) za iskanje in zamenjavo nizov, gramatike za prepoznavanje sintakse, podobnost nizov, Levenhsteinova razdalja
- Klasični jezikovni modeli: n-grami, lematizacija, leksikoni besednih oblik
- Vektorske predstavitve besedil: tf-idf, goste predstavitve word2vec
- Globoka omrežja in besedila: rekurzivne in konvolucijske nevronske mreže za besedila
- Nevronski jezikovni modeli: ELMo, BERT,
- Medjezikovne vektorske vložitve
- Oblikoslovno označevanje in skladenjsko razčlenjevanje za angleščino in slovenščino,
- Leksikalna semantika in razdvoumljanje
- Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, WordNet, pregled orodij in repozitorijev, luščenje terminologije.
- Prepoznavanje imenskih entitet (NER) in označevanje udeleženskih vlog (SRL)
- Tekstovno rudarjenje: prilagojene klasifikacijske metode, metodologija in evalvacija
- Analiza čustev
- Odgovori na vprašanja
- Povzemanje: predstavitve besedil, matrična faktorizacija, abstraktivne, ekstrakcijske metode in povpraševane metode.
- Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju.
Obveznosti pri predmetu obsegajo pet spletnih kvizov in tri seminarske naloge z roki z oddajo v aprilu, maju in juniju.
- nosilec: Marko Robnik Šikonja