Vsebina predmeta temelji na izboru sodobnih statističnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.

1.    Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statističen pristop.
2.    Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, pregled orodij.
3.    Lingvistika: fonologija in morfologija, sintaktična analiza, formalne gramatike.
4.    Uporaba avtomatov in gramatik: avtomati in algoritmi za iskanje nizov, prepoznavanje sintakse,  gramatično razčlenjevanje.
5.    Oblikoslovno označevanje besedil: vrste oznak, lematizacija, ngrami, skriti markovski model, označevanje s pravili.
6.     Računska in leksikalna semantika: predstavitve pomena, metode s pravili, leksikalna semantika.
7.    Razvrščanje besedil in mere podobnosti: kosinusna razdalja, jezikovna omrežja in grafi, WordNet, vektorska predstavitev, uteževanje vektorjev, semantična korelacija.
8.    Tekstovno rudarjenje: prilagojene klasifikacijske metode, metoda podpornih vektorjev na dokumentih, izbira atributov.
9.    Globoka omrežja in besedila: predstavitev besedil za uporabo v globokih nevronskih mrežah, avtoenkoderji, rekurzivne nevronske mreže.
10.    Povzemanje: predstavitve besedil, matrična faktorizacija, ekstrakcijske metode, povpraševane metode.
11.    Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju.
12.    Dopolnjevanje besedil z drugimi viri informacij: heterogena omrežja, predstavitev word2vec, heterogeni ansambli klasifikatorjev, analiza povezav.
13.    Metodologija in evalvacija pri obdelavi naravnega jezika.