Strojno odvajanje: gradientni sestop in računski graf
섹션 개요
-
Avtomatsko odvajanje je metoda za izračun gradientov, ki omogoča učinkovito optimizacijo kriterijskih funkcij v strojnem učenju. V tipičnem problemu strojnega učenja imamo namreč podatke, strukturo modela s parametri in kriterijsko funkcijo, ki določa, kako dobro model ustreza podatkom. Optimizacija parametrov poteka s postopki, kot je gradientni sestop, kjer se model oziroma njegovi parametri prilagajajo tako, da minimizirajo kriterijsko funkcijo. Primeri takšnih funkcij vključujejo napake napovednih modelov ali optimizacijske cilje pri metodah zmanjšanja dimenzij. Tu, v uvodu v avtomatsko odvajanje, najprej predstavimo analitične in numerične pristope k izračunu gradientov, nato pa skušamo razviti program za avtomatsko odvajanje tako, da razvoj pričnemo za silno enostavno funkcijo. Seveda bomo te postopke v naslednjem predavanju nadgradili, jih praktično uporabili v učnem algoritmu, in pokazali, da so za vse to na voljo številne že zgrajene in odlične knjižnice. Razvoj naše kode za odvajanje je torej zgolj šolski, nam pa (upamo) dobro pomaga razumeti področje.
Zapiski s predavanj
Koda
Andrej Karpathy: micrograd- The spelled-out intro to neural networks and backpropagation: building micrograd
- Micrograd GitHub Repo