Oris poglavij

  • Splošno

    Predavatelja: Blaž Zupan (blaz.zupan@fri.uni-lj.si), Vladislav Rajkovič (vladislav.rajkovic@ijs.si)
    Asistent: Marko Toplak (marko.toplak@fri.uni-lj.si)

    Predavanja so ob torkih v P04 s pričetkom ob 11:15. Prosim, bodite točni!

    Vaje pri predmetu bodo kombinacija konzultacij in (po potrebi) kratkih tečajev o praktičnih temah, ki bodo povezane z izvedbo domačih nalog. Z vajami pričnemo takoj, v prvem tednu semestra.

    Ocenjevanje: domače naloge (50%) + pisni izpit (50%). Pozitivna ocena domačih nalog (študent je zbral več kot 60% možnih točk) je pogoj za pristop k izpitu. Izpit je opravljen s pozitivno oceno če je pozitivna tako ocena domačih nalog kot pisnega izpita (zbranih več kot 60% možnih točk pri domačih nalogah in več kot 60% možnih točk pri izpitu). Bonusi iz domačih nalog se ne prenašajo na pisni izpit (in obratno). Združena ocena domačih nalog in izpita v odstotnih točkah, kjer je DN ocena domačih nalog in I ocena izpita v odstotnih točkah se izračuna skladno z enačbo: ocena [odstotne točke] = max( min(DN+15, I), min(DN, I+15) ). Primer: 85% točk iz domačih nalog, 65% iz izpita, ocena je 80%. Še en primer: pisni izpit 90%, domače naloge 65%, ocena je 80%. Zaokrožene odstotne točke (celo število) se prevedejo v končno oceno pri predmetu: do 60 -> 5, od 61 do 68 -> 6, od 69 do 76 -> 7, od 77 do 84 -> 8, od 85 do 92 -> 9, od 93  -> 10. Vpis ocene bo potekal v izpitnem obdobju hkrati z ustnim izpitom, ki bo na voljo za vse, ki bi radi spremenili oceno.

    Domače nalog: Poročila o domačih nalogah so napisana v LaTeXu (predloga, primer). Domače naloge imajo rok. Za vsak dan zamude se ocena množi z 0,9. Primer: študent je za nalogo, ki jo je oddal dva in pol dni po roku, prejel 75 točk. Končna ocena naloge je 75*(0,9^3) = 54,7 točk. Naloge je obvezno oddati vsaj sedem dni po roku, po tem se šteje naloga ko neopravljena (0 točk). Ocena naloge je sestavljena iz ocene za vsebino (90%) in strukturo/pravopis (10%). Predvidoma boste imeli od šest do osem domačih nalog, ki bodo enakomerno razporejene po semestru. Prva domača naloga bo predstavljena že na prvem predavanju.

    Literatura:

    Priporočena dodatna gradiva in tečaji (neobvezno, a za vsa radovedne):

    • Janez Demšar (2009) Python za programerje. Knjiga, namenjena tem, ki že znajo programirati v kakem drugem jeziku. Kdor ima raje verzijo na papirju, jo lahko kupi pod menzo za ceno cca dveh kosil v menzi.
    • Luciano Ramalho (2015) Fluent Python, O'Reilly Media. Lahko tudi Early Release 2014, ki je bil nekaj časa prosto dostopen na webu. Debela bukla, skoraj enciklopedija, a s super primeri in triki.
    • Tečaji s področij strojnega učenja, analize podatkov, nevronskih mrež dostopni na raznih MOOCih. 

  • Odkrivanje skupin

    Odkrivanje skupin je eden od temeljnih postopkov, ki jih uporabljamo pri analizi podatkov. Odkrivamo lahko skupine uporabnikov glede na njihove uporabniške profile (uporaba storitev, nakupovalne košarice, vzorci obnašanja, stiki v družabnih omrežij), stvari (profili zanimanja uporabnikov, semantične podobnosti), dokumentov (glede na besedilo, ključne besede, zanimanje in ocene uporabnikov). Med številnimi algoritmi, ki se danes uporabljajo za odkrivanje skupin v podatkih, je prav gotovo najbolj znan algoritem hierarhičnega razvrščanja v skupine. Najbrž zaradi njegovi enostavnosti in pa zaradi tega, ker je njegove rezultate moč enostavno grafično predstaviti. Prav je, da s tem algoritmom pričnemo predmet. Osnovna literatura
    Dodatni viri
    Podatki in koda
    • Razvrščanje besedil

      Za obravnavo besedilnih dokumentov bomo uporabili trik. In sicer jih bomo za rešitev domače naloge predstavili s frekvenco k-terk, to je frekvenco k soslednih znakov, ki jih bomo dobili tako, da bomo z oknom širine k drseli po besedilu, znak po znak, in si zapisovali, kolikokrat smo pri tem naleteli na posamezno terko. Ker dokumente na ta način zapišemo s frekvencami terk, pravimo tudi, da je gre za spektralno predstavitev besedila. Predstavitev ustrezno normaliziramo (TF-IDF), izločimo lahko tudi zelo redko pojavljajoče se terke. Dobljen atributni zapis je lahko vhod v algoritme razvrščanja. Osnovna literatura
      Dodatni viri
      • Programming Collective Intelligence, tretje poglavje (Document Filtering)
      • Language Trees and Zipping, eden prvih člankov, ki predlaga, da se za jezikovna drevesa da uporabljati tudi navadni program za zgoščevanje datotek (npr. gzip)
      • Quantitative analysis of culture using millions of digitized books, članek Ereza Liebermana in sodelavcev iz revije Science, kjer so analizirali angleška besedila od leta 1800 do 2000 in opazovali razvoj jezika, kulture in zgodovine.
      • Metoda voditeljev

        Hierarhično gručenje lahko zaradi časovne in prostorske kompleksnosti algoritma uporabljamo samo na manjših množicah podatkov. Gručenje, ki ga lahko uporabimo tudi na velikih množicah podatkov uporablja metodo voditeljev, ki pa od uporabnika zahteva, da vnaprej poda število gruč. Iskanje primernega števila voditeljev lahko avtomatiziramo z oceno kvalitete razbitja. Ena od preprostejših mer uporablja pristop silhuete. Osnovna literatura
        Dodatni viri
        • Linearna regresija

          Problemom, kjer je cilj iz atributnega opisa primera napovedati vrednost ciljne zvezne spremenljivke (imenujemo jo tudi razred), pravimo regresijski problemi. Iz učnih podatkov, ki tokrat poleg atributnega opisa vsebujejo tudi podatek o razredu, tu gradimo regresijske napovedne modele. Pri predmetu se bomo z večino tehnik regresijskega modeliranja le seznanili. Pobližje spoznamo le linearno regresijo. Gre za sicer zelo enostaven model, ki pa ima skoraj vse, kar imajo veliki. Najprej je tu struktura modela, kjer pri linearni regresiji povemo, da gre za uteženo vsoto vrednosti atributov, kjer pravimo utežem parametri modela in jih moramo določiti iz podatkov. Določimo jih tako, da minimizirajo neko kriterijsko funkcijo. Pri predavanji to definiramo kot povprečno vrednost kvadrata napake. Kot postopek optimizacije, se pravi, iskanja optimalne vrednosti parametrov glede na izbrano kriterijsko funkcijo, uporabimo metodo gradientnega spusta. Osnovna literatura
          Drugi viri
          Koda
          • Merjenje napovedne točnosti in regularizacija

            Linearna regresije se v primeru dovolj velikega števila atributov povsem prilagodi učni množici. Če je atributov dovolj, primerov pa dovolj malo, lahko celo dosežemo, da model linearne regresije točno napove vse vrednosti razredov primerov učne množice. Tako prilagojeni modeli pa tipično ne napovedujejo dobro na učni množici. Da vse to rešimo rabimo določiti mere za ocenjevanje točnosti, postopek, kako merimo točnost (množico primerov razbijemo na učno in testno množico) in postopek, kako preprečimo preveliko prileganje učni množici. Slednjega imenujemo regularizacija, in je v osnovni zelo enostavna: poleg napake na učni množici gradimo model linearne regresije tako, da skušamo minimizirati tudi vsoto kvadratov vrednosti parametrov modela. Postopek opišemo na primeru polinomske regresije. Osnovna literatura
            • Logistična regresija

              Uvrščanje v skupine ali klasifikacija predpostavlja, da je pri za vsak primer v naboru učnih primerov podan tudi razred. Cilj uvrščanja je iz učnih primerov zgraditi napovedni model, ki za nov primer in njegov opis v atributnem jeziku napove razred. Častnikarske novice tako na primer lahko pripadajo razredu šport, poslovne novice, razvedrilo. Uporabniki telekomunikacijskih storitev so lahko zvesti ali pa po določenem času zbežijo k drugemu ponudniku (angl. churn). Spletna stran je lahko dobro ali slabo obiskana. Izdelek v prodajalni je lahko prodajan z dobičkom ali pa izgubo.

              Pri predmetih umetne inteligence ali pa strojnega učenja ste že spoznali nekaj tehnik strojnega učenja. Na predavanjih izpostavimo le logistično regresijo, predvsem zaradi podobnosti z linearno regresijo, elegantnosti izpeljave tega modela in njene izboljšave z regularizacijo parametrov. Nastavek za izpeljavo logistične regresije je logistična funkcija, ki preslika linearno kombinacijo parametrov (pomnoženih z vrednostmi vhodnih spremenljivk) v interval [0, 1]. Ko predpostavimo, da nam ta funkcija lahko vrača verjetnosti ciljnega razreda danega primera, lahko za nabor učnih primerov zapišemo verjetje, iz njega pa izpeljemo kriterijsko funkcijo in osnovni korak gradientnega dviga, ki je eden od postopkov, kako iz učnih primerov izluščimo parametre logistični regresije.

              Osnovna literatura
              • Klasifikacijska drevesa in gozdovi

                Klasifikacijska drevesa so podobna regresijskim: izberemo atribut, ki nam najbolje določi množice z različno porazdelitvijo razredov, in postopek ponavaljamo na podmnožicah, ki smo jih na ta način odkrili. Seveda bomo za klasifikacijo v ta nemen morali iznajti nove mere za informativnosti atributov (recimo, informacijski prispevek), a postopek gradnje drevesa bo isti. Prav tako ne bo večjih razlik pri gradnji klasifikacijskih gozdov. Osnovna literatura
                • Priporočanje

                  K rešitvi vseh teh in podobnih dilem nam danes lahko danes pomagajo priporočilni sistemi. Spoznali bomo te, ki temeljijo na "modrosti možic" in jih označujemo s terminom "skupinsko filtriranje" (angl. collaborative filtering). Za vsako od priporočil, ki jih bomo zahtevali od sistema, bo ta pogledal, ali obstajajo nam podobni uporabniki in nam priporočil stvar, ki so ti dobro ocenili oziroma že izbrali. Prav tako bi lahko za priporočilo lahko pogledali, katere so podobne stvari tem, ki smo jih mi že izbrali. V obeh primerih bomo podobnosti (torej med uporabniki ali pa stvarmi) ocenili na podlagi zapisov preferenčnih podatkov vseh uporabnikov in stvari, ki jih lahko sistem priporoča.

                  Pristopi priporočanja na podlagi merjenja podobnosti uporabnikov ali pa podobnosti stvari so precej osnovni in tipično ne dajo najboljše rezultate. Veliko boljše napovedi nam da pristop z matrično faktorizacijo. Tu za preferenčno matriko R{m x n} poiščemo približek v latentnem prostoru, tipično kot zmnožek veliko manjših matrik P{m x k} in Q{k x n}. Matrika P je zbirka latetnih profilov uporabnikov, R pa latetnih profilov stvari. Število k je stopnja faktorizacije in ustreza velikosti latentnih profilov. Tipično je R zelo redka matrika, P in Q pa sta polni. Iščemo tako P in Q, kjer je napaka ||R-PQ|| čim manjša. Za minimizacijo te napake lahko P in Q poiščemo z metodo gradientnega spusta. Ker sta P in Q polni matriki, lahko preko njunih produktov napovemo oceno za poljubno kombinacijo porabnika in stvari. Praktični pristopi k faktorizaciji, predobdelavi podatkov in regularizaciji so opisani v priloženi literaturi.

                  To poglavje je kar pestro in uvaja številne nove prijeme, pri tem pa uporabi nekatere koncepte, ki smo jih že dobro spoznali. Med slednje predvsem sodijo tehnike merjenje razdalj (oziroma ocenjevanja podobnosti) in optimizacijski pristop z gradientnim spustom.
                  Osnovna literatura
                  Dodatni viri
                  • Analiza nakupovalnih košaric

                    Gremo v trgovino, nakupimo nekaj stvari in plačamo. Moderne blagajne vsako tako transakcijo in skupino transakcij, torej vsebino nakupovalne košarice, vestno zabeležijo. Kakšne zanimive informacije lahko ponudnik - prodajalec izve iz takih podatkov? Kako te na primerno hiter način obdelamo? Učinkoviti algoritmi za tako analizo so bili načrtani v 90ih letih, danes pa raziskovalci predvsem delajo na njihovih specializacijah (časovne vrste, zvezni števci stvari, ipd.). Na predavanju bomo spoznali nekaj osnovnih prijemov, ki se ukvarjajo samo z vsebino košaric in ne s količino nakupljenih stvari. Odkrite zakonitosti v takih podatkih lahko predstavimo z naborom pogosto pojavljajočih se stvari v košaricah (angl. frequent itemsets) ali pa s seznamom povezovalnih pravil (angl. association rules). Odkrivanju obeh služi algoritem Apriori. Nabore stvari in pravila moramo tudi kvantitativno ovrednotiti, čemur služijo mere kot so podpora (angl. support), zaupanje (angl. confidence) in dvig (angl. lift).

                    Tovrstne tehnike seveda niso namenjene samo analizi podatkov iz nakupovanj. Uporabne so tudi na področjih analiz spletnih strani, besedilnih dokumentov, v bioinformatiki, medicinski diagnostiki, astronomiji (prvi algoritmi na tem področju so bili uporabljeni prav na tej domeni), analizi podatkov iz družabnih omrežij in kjerkoli lahko primere predstavimo s skupino oznak.
                    Osnovna literatura
                    Dodatni viri
                    • Odločamo, ne da bi vedeli, kako to počnemo

                      Človek je tisti, ki ocenjuje, vrednoti in odloča. Ali vemo, kako to delamo? Kaj je odločitveno znanje in kako naj ga upravljamo, da bomo sprejemali pametne odločitve?

                      Odločanje bomo obravnavali kot socio-tehnični proces, v katerem se srečujemo s problemi in izzivi, ki jih prinaša narava človekovih miselnih procesov in sodobna informacijska in komunikacijska tehnologija. Opredelili bomo mesto in vlogo sistemov za pomoč pri odločanju v okviru upravljanja poslovnega sistema. Z ustrezno organizacijo lastnega dela in smiselno uporabo tehnologije, lahko pomembno prispevamo h kakovosti odločitev. Spoznali bomo teorijo odločanja s poudarkom na večparametrskem odločanju. Posebej bomo proučevali preferenčno relacijo, ki jo človek more in mora vzpostaviti med dvema variantama oz. inačicama, da ugotovi, katera je zanj bolj zaželena oz. da sta varianti enaki zaželeni. Merjenje zaželenosti variante, ki ga imenujemo tudi merjenje ustreznosti, primernost, kakovosti ali koristnosti, bomo obravnavali v okviru splošne teorije merjenja. Spoznali bomo, kako tako merjenje izvedemo v praksi pri sprejemanju naših odločitev.
                      Osnovna literatura
                      Dodatni viri
                      • Grossmann W., Rinderle-Ma S., Fundamentals of Business Intelligence, Springer, 2015
                      • Hammond J.S., Keeney R.L., Raiffa H., Smart Choices: A Practical Guide to Making Better Decisions, Harward Business Review, 2015
                      • Bohanec M., Odločanje in modeli, DMFA, 2006
                      • Kahneman D., Thinking, Fast and Slow, Penguin, 2012
                      • Bazerman M.H., Moore D., Judgement in managerial decision making, Wiley, 2009
                      • Efstathiou J., Rajkovič V., Multi-attribute decision making using a fuzzy heuristic approach, IEEE
                      • Transaction on Systems, Man and Cybernetics 9(6), 1979, 326-333
                      • Bohanec M., Rajkovič V., DEX: an expert system shell for decision support, Sistemica 1(1), 1990, 145-157
                      • Rajkovič V., Bohanec M., Batagelj V., Knowledge engineering techniques for utility identification, Acta Psychologica 68(1-3), 1988, 271-286
                      • Bohanec M., Urh B., Rajkovič, V., Evaluating options by combined qualitative and quantitative methods, Acta Psychologica 80, 1992, 67-89
                      • Chang C. R., Lyras D., Soloway E., The future of decision making, Palgrave, Macmillan, 2016

                      • Metode in tehnike modeliranja odločitvenega znanja

                        Z uporabo ustrezne metodologije lahko pomembno izboljšamo proces odločanja in s tem povečamo verjetnost za dobro odločitev. Ob konkretnem odločitvenem primeru, kot je npr. izbor kandidata za zaposlitev, bomo spoznali razvoj odločitvenega modela kot pripomočka za modeliranje odločitvenega znanja. Proučevali bomo moč in nemoč različnih metod in tehnik za realizacijo modela. Poseben poudarek bo na primerjavi pristopov in metod, ki bo slonela na kritični analizi prednosti in slabosti. Kdaj in zakaj uporabiti določeno metodo in ne druge?

                        Obravnavali bomo ročno preglednico tipa Abacon, računalniško preglednico tipa Excel, namensko preglednico tipa HiView, metodo AHP, metodo ekspertnega sistema DEX s pomočjo programskega orodja DEXi.
                        Osnovna literatura
                        Dodatni viri
                        • Schank R.C., Lyras D., Soloway E., The Future of Decision Making, How Revolutionary Software Can Improe the Ability to Decide, Palgrave Maxmillan, 2010
                        • Triantaphyllou E., Multi-Criteria Decision Making Methods: A Comparative Study (Applied Optimization), Kluwer Academic Publishers, 2010
                        • Bohanec M., Odločanje in modeli, DMFA, 2006
                        • Saaty T.L., Multicriteria Decision Making: The Analytic Hierarchy Process, RWS Publications, 1993

                        Orodje
                        • Skupinsko odločanje in usklajevanje interesov

                          Zakaj odločanje v skupini? V čem je dodana vrednost? Verjetno ni razloga, da bi dvomili v stari rek »Več glav več ve« tudi v okviru odločanja. Prav je, da se vprašamo, v čem je prednost sodelovanja v skupini pred posameznikom in kakšne dodatne probleme srečujemo. Saj poznamo tudi rek »več glav zelnik«.

                          Skupinsko odločanje bomo obravnavali kot poseben primer upravljanja odločitvenega znanja. Analizirali bomo razloge za in proti skupinskemu odločanju. Poseben poudarek bo na usklajevanju različnih interesov in možnostih za oblikovanje skupne odločitve. Pri tem nam razpoložljive metode in tehnike ter ustrezna organizacija dela v skupini lahko bistveno pomagajo.
                          Osnovna literatura
                          Dodatni viri
                          • Rajkovič V., Group Decision Making: Integrating Different Interests into a Joint Decision, Organizacija, 2011
                          • Arrow K.J., Sen A.K., Suzumura K., Handbook of social choice and welfare, North Holland, 2002 Nash J., Equilibrium points in n-person games, Proceedings of the National Academy of Sciences 36(1), 1950, 48-49
                          • Harsanyi J., Cardinal welfare, individualistic ethics and interpersonal comparisons of utility, Journal of Political Economy, 63(4), 1955, 309-321
                          • Lu J., Zhang G., Ruan D., Multi-Objective Group Decision Making: Methods, Software and Applications with Fuzzy Set Techniques, Imperial College Press, 2007
                          • Zarate P., Belaud J.P., Camilleri G., Ravat F., (eds.), Collaborative decision making: Perspectives and challenges, IOS Press, 2008
                          • Študij primerov reševanja odločitvenih problemov

                            Predstavili bomo izbrane projekte, v katerih so bili razviti raznoliki odločitveni modeli za pomoč pri sprejemanju konkretnih odločitev. Modeli so bili udejanjeni in ovrednoteni v praksi. Poleg uporabljene teorije in odločitvenega inženiringa bomo predstavili tudi neposredne praktične probleme in rešitve, ki zadevajo specifike posameznih področij in predstavljajo širši kontekst odločitvenega problema. Prav te izkušnje nam pri obvladovanju novih odločitvenih situacij lahko pomembno pomagajo, da hitreje in lažje pridemo skupaj z naročnikom do transparentnejših, bolje razumljenih in posledično boljših odločitev.

                            Kritično bomo analizirali naslednje projekte: Ocenjevanje zdravstvenega stanja pacienta, Dodeljevanje stanovanjskih kreditov, Ocenjevanje športne nadarjenosti otrok in Ocenjevanje primernosti preusmeritve dejavnosti kmetij. V objavah doma in na tujem so predstavljeni še nekateri drugi odločitveni projekti.
                            Osnovna literatura
                            Dodatni viri
                            • Nikoloski T., Udovč A., Pavlovič M., Rajkovič, V., Večkriterijski model za oceno primernosti preusmeritve dejavnosti kmetij, Zbornik 35. konference o razvoju organizacijskih znanosti, 2016
                            • Neubauer F.F., Upravljanje s portfeljem: potencialni dobiček – teorija in praksa, Gospodarski Vestnik, 1991
                            • Škufca M., Popovič A., Sobivanje pristopov k podatkovni analitiki, Uporabna informatika 24(4): 151-163, 2016
                            • Bohanec M., Kapus V., Leskošek B., Rajkovič V., Talent, uporabniški priročnik, MŠŠ in Zavod RS za šolstvo, 1997
                            • Bohanec M., Rajkovič V., Multi-attribute Decision Making: Industrial Applications of DEX, Informatica 23, 1999, 487-491
                            • Bohanec M., Zupan B., Rajkovič V., Applications of Qualitative Multi-attribute Decision Models in Health Care, International Journal of Medical Informatics 58-59, 2000, 191-205
                            • Bohanec M., Rajkovič V., Cestnik B., Five decision support applications, v: Mladenić D., Lavrač N.,
                            • Bohanec M., Moyle S. (eds.), Data Mining and Decision Support: Integration and Collaboration, Kluwer Academic Publishers, 2003
                            • Jereb E., Rajkovič U., Rajkovič V., A hierarchical multi-attribute system approach to personnel selection, Int. j. sel. assess., 2005, 13(3), 198-205
                            • Cundrič A., Kern T., Rajkovič V., A qualitative model for road investment appraisal, Transp. Policy (Oxf.), 15(4), 2008, 225-231
                            • Šušteršič O., Rajkovič U., Dinevski D., Jereb E., Rajkovič V., Evaluating patients’ health using a hierarchical multi-attribute decision model, The Journal of International Medical Research, 37(5), 2009, 1646-1654
                            • Bokovec K., Damij T., Rajkovič T., Rajkovič V., Evaluating ERP Projects with Global Efficiency Factors, v: Respício A. et al. (eds.), Bridging the Socio-technical Gap in Decision Support Systems IOS Press, Amsterdam, 2010, 395-406
                            • Kovač T., Resman M, Rajkovič V., The model for evaluating the influence of student participation on school quality, Napredak, 151(3-4), 2010, 335-349
                            • Čampelj B. Rajkovič V., Jereb E., Model ocenjevanja stopnje informatizacije šole, Organizacija, 44(3), 2011, 121-132