Spracovanie prirodzeného jazyka
Google,, Facebook ... majú najviac dát a vedia dáta premeniť na peniaze.
Vytiahnuť z nich užitočné informácie (zvané ZNALOSTI).
Vložíme dáta do systému a naučíme ho robiť niečo užitočné:
Dáta sú slabo štruktúrované - potrebujeme metódy umelej inteligencie.
Dát môže byť veľa - potrebujeme metódy spracovania veľkých dát.
Získať znalosti vo forme modelu (neurónovej siete).
Model vie zovšeobecniť naučené príklady a odpovedať aj na otázky ktoré nevidel.
Najčastejšie používané neurónové siete
Najčastejšie používané klasické metódy.
Stroj odpovedá na faktické otázky, na1998pr.
Ako "naučiť" taký systém?
Disponujeme databázou dokumentov
Odpoveďou je časť dokumentu z databázy dokumentov.
Vedia využívať znalosti aj dokumenty.
Information retrieval
Máme množinu dokumentov a index kľúčových slov.
Hľadáme dokumenty ktoré sú najviac relevantné k položenej otázke (kľúčovým slovám).
Máme dokument a k nemu otázku.
Vyznačenie časti v dokumente, ktorá je odpoveďou na otázku.
(Chen 2017)
Predspracovanie: Otázka -> Príznaky -> sémantický vektor (word-embedding)
Klasifikácia:
Squad
Jurafsky and Martin: Speech and Language Processing, 2nd Edition.,
Jurafsky and Martin: Speech and Language Processing, 3rd Edition.