PCA in potenčna metoda, singularni razcep
Section outline
-
Metoda glavnih komponent (angl. principal component analysis) je nenadzorovana tehnika, namenjena zmanjšanju dimenzionalnosti podatkov, izločanju šuma in prikazu podatkov v dvo ali tro-dimenzionalnih vizualizacijah. PCA je linearna transformacija, ki podatke iz atributnega prostora, kjer so atributi med sabo lahko odvisni preslika v prostor medsebojno neodvisnih atributov. Osnovni postopek za gradnjo glavnih komponent ne upošteva vrednosti razredne spremenljivke. V postopku konstrukcije te transformacije podatke centriramo, izračunamo kovariančno matriko in poiščemo njene lastne vektorje in vrednosti. Lastni vektorji določajo nov koordinatni sistem, v katerega preslikamo podatke, lastne vrednosti pa deležu pojasnjene variance podatkov. Glavne komponente so torej tiste z največjimi lastnimi vrednosti. Tipično nas zanima le nekaj glavnih komponent, s katerimi na primer razložimo do 80% ali 90% variance. Za izris razsevnega diagrama s podatki pa navadno uporabimo prvi dve glavni komponenti, torej tisti z največjima lastnima vrednostima. Na predavanju se predvsem ukvarjamo s postopkom hitrega izračuna prvih nekaj glavnih komponent in deleža celotne variance, ki nam jih te pojasnijo.
Metoda glavnih komponent je poseben primer uporabe singularnega razcepa matrike (angl. singluar-value decomposition). Cilj tega je predstavitev matrike podatkov X s sistemom matrik UDVT, kjer sta matriki U in V ortonormalni in je matrika D diagonalna. Pokažemo, da matrika U ustreza lastnim vektorjem matrike XXT, matrika V lastnim vektorjem matrike XTX, elementi na diagonali matrike D pa so koreni pripadajočih lastnih vrednosti in, glede na podatke X, torej ustrezajo korenom pojasnene variance komponente, ki je predstavljena z lastnim vektorjem. Sistem UDV lahko tudi zmanjšamo tako, da upoštevamo samo glavne komponente in tako dobimo zmanjšano matriko profilov primerov in profilov atributov.
Osnovna literatura - Leskovec J, Rajaraman A, Ullman J (2015) Mining of Massive Datasets. Poglavja 11.1, 11.2 in 11.3 o lastnih vektorjih, PCA in SVD.