Gremo v trgovino, nakupimo nekaj stvari in plačamo. Moderne blagajne vsako tako transakcijo in skupino transakcij, torej vsebino nakupovalne košarice, vestno zabeležijo. Kakšne zanimive informacije lahko ponudnik - prodajalec izve iz takih podatkov? Kako
te na primerno hiter način obdelamo? Učinkoviti algoritmi za tako analizo so bili načrtani v 90ih letih, danes pa raziskovalci predvsem delajo na njihovih specializacijah (časovne vrste, zvezni števci stvari, ipd.). Na predavanju bomo
spoznali nekaj osnovnih prijemov, ki se ukvarjajo samo z vsebino košaric in ne s količino nakupljenih stvari. Odkrite zakonitosti v takih podatkih lahko predstavimo z naborom pogosto pojavljajočih se stvari v košaricah (angl. frequent
itemsets) ali pa s seznamom povezovalnih pravil (angl. association rules). Odkrivanju obeh služi algoritem Apriori. Nabore stvari in pravila moramo tudi kvantitativno ovrednotiti, čemur služijo mere kot so podpora (angl. support), zaupanje
(angl. confidence) in dvig (angl. lift).
Tovrstne tehnike seveda niso namenjene samo analizi podatkov iz nakupovanj. Uporabne so tudi na področjih analiz spletnih strani, besedilnih dokumentov, v bioinformatiki, medicinski diagnostiki, astronomiji (prvi algoritmi na tem področju so bili uporabljeni
prav na tej domeni), analizi podatkov iz družabnih omrežij in kjerkoli lahko primere predstavimo s skupino oznak.
|
Literatura
Predavanja
Dodatni viri
|