Pri ľudskej činnosti vzniká veľké množstvo dát.
Vyhráva ten, čo vie tie dáta lepšie pracovať.
Užitočná informácia
dáta -> informácie -> znalosti
znalosti človeka za zmenia na znalosti stroja.
Zoberieme model a vyskúšame ho na neznámych dátach. Dostaneme číslo, ktoré vyjadruje kvalitu modelu.
Založené na početnosti (frekvencii) príznakov v trénovacej množine.
Početnosť je premenená na pravdepodobnosť.
Využívajú operácie s pravdepodobnosťou, hlavne Bayesovu vetu.
S učiteľom:
Bez učiteľa:
Máme množinu e-mailov a chceme zistiť či je e-mail spam alebo nie je.
Pri kontrolovanom strojovom učení zbierame dôkazy ktoré svedčia pre alebo proti testovanej hypotéze.
(v tomto prípade sú dôkazy slová v správe, v hlavičke, odosielateľ a iné.)
Ručne označíme niekoľko e-mailov - pozrieme či to je spam alebo nie.
Vzniknú nám dve množiny:
Podľa čoho človek zistí že ide o spam?
Parametre modelu sú pravdepodobnosti
C("zadarmo" | spam) = 100
C("zadarmo" | normal ) = 1
C(spam) = 1000
C(normal) = 200
C("zadarmo") = 101
P ("zadarmo" | spam) = C ("zadarmo" | spam) / C (spam)
P (spam) = C(spam) / (C(spam) + C (norma))
Aplikujeme Bayesovu vetu:
P (spam | "zadarmo") = P ("zadarmo" | spam) * P(spam) / P("zadarmo")
Zistíme pravdepodobnosť toho, že e-mail je spam ak sa v ňom nachádza slovo "zadarmo".
Klasifikácia pomocou Bayesovho klasifikátora
Zoberieme neznámy mail a podľa výskytu príznakov spočítame pravdepodobnosť príslušnosti do tried.
Trénovacia množina je premená na príklady.
Neurónová sieť sa učí tak že pozoruje príklady.
Na základe príkladov je schopná zovšeobecniť problém a spracovať aj neznáme príklady.
vstup váhy aktivácia výstup
x1 --w1---\
\
x2 --w2----- F( SUM (x) ) -> output
/
x3 --w3---/
From Wikipedia
Vstupná Skrytá Skrytá Výstupná vrstva vrstva 1 vrstva 2 vrstva
x1 O O O y1
x2 O O O y2
x3 O
x4
Váhy Váhy Váhy Váhy
Algoritmus backpropagation
Platíte osobnými dátami za služby Googlu a Faceboku.