Tema: Vlaganje primerov v nižjedimenzionalne prostore | Odkrivanje znanj iz podatkov

Osnutek odseka

Visoko dimenzionalne podatke še najraje predstavimo grafično, v vizualizaciji. Najbolj običajne, morda tudi najbolj preproste, so točkovne vizualizacije. Z metodo glavnih komponent smo lahko visoko dimenzionalne podatke preslikali v dve dimenziji ter pri tem skušali pojasniti čim več variance vhodne matrike. Preslikava PCA je linearna, njena prednost pa, da smo na testni množici pridobili predpis (matriko), s katerim lahko preslikamo nove podatke v dvodimenzionalni prostor. Namesto tovrstnih preslikav lahko primere iz originalnega (visoko dimenzionalnega) prostora vložimo v nižje dimenzionalni prostor. Tu nas bo seveda največkrat zanimalo vlaganje v dve dimenziji. Določiti moramo, kakšne vložitve nas zanimajo. Na predavanju spoznamo dve. Večrazredno lestvičenje (angl. multi-dimensional scaling) skuša v prostoru vložitve ohraniti razdalje med primeri iz originalnega prostora. Pri stohastični vložitvi sosedov (angl. stochastic neighbour embedding, SNE ali, v izboljšani verziji t-distributed stochastic neighbour embedding) pa nas zanima samo ohranjanje lokalnosti: če je razdalja med dvemi primeri v originalnem prostoru bila majhna, naj bi ta primera bila blizu drug drugega tudi v prostoru vložitev. Vložitve za metodi MDS in t-SNE pridobimo iterativnimi postopki optimizacije lege primerov v prostoru vložitev. Za vložitev ne pridobimo predpisa, oziroma ga ne moremo opisati z neko matrično transformacijo. Prednost teh metod pa je, da lahko namesto s podatki delajo z razdaljami med primeri in da tipično poiščejo vložitve, kjer so med sabo različni primeri bolje ločeni kot na primer v projekcijah z glavnimi komponentami.

Osnovna literatura

Projekcije in zmanjšanje dimenzionalnosti podatkov (zapiski predavatelja)
Majorizacija stresa (izpeljava SMACOF algoritma za MDS)
t-SNE (spletna stran avtorja metode t-SNE)
An illustrated introduction to the t-SNE algorithm