Systémy generovania odpovede na otázku v prirodzenom jazku

Dáta sú nové zlato

Google,, Facebook ... majú najviac dát a vedia dáta premeniť na peniaze.

Ako dáta premeniť na peniaze?

Vytiahnuť z nich užitočné informácie (zvané ZNALOSTI).

  • Kto si chce kúpiť moju značku parfému?
  • Aké videá mám najradšej?

Znalosť je užitočná informácia

  • podporí biznis.
  • pomôže pri riešení problému.
  • pomôže pri každodennom živote.

Znalosti sa dajú premeniť na peniaze

Vložíme dáta do systému a naučíme ho robiť niečo užitočné:

  • vyhľadávať v databáze
  • odpovedať na otázky
  • rozpoznávať obrázky alebo prepisovať reč

Ako dáta premeniť na znalosti?

Dáta sú slabo štruktúrované - potrebujeme metódy umelej inteligencie.

Dát môže byť veľa - potrebujeme metódy spracovania veľkých dát.

Slabo štruktúrované dáta - opak programovacieho jazyka

  • Text napísaný v ľudskom (prirodzenom) jazyku
  • Obrázok alebo fotografia

Ako dáta premeniť na znalosti?

Získať znalosti vo forme modelu (neurónovej siete).

Model vie zovšeobecniť naučené príklady a odpovedať aj na otázky ktoré nevidel.

Model pre automatické odpovede

+---------------------+
|Databáza  dokumentov |
+---------------------+
      |
<Vyhľadávač>  <---- Otázka
      |
+--------------------+
|Množina relevantných|
|dokumentov          |
+--------------------+
     |
<Odpovedač> ----->  Dokument s odpoveďou

Model pre automatické odpovede

Vstup: Otázka, dokument

  • text otázky, text odpovede
  1. Extrakcia príznakov.
  2. Kódovanie otázky a dokumentu.
  3. Generovanie odpovede.

Výstup: Oblasť v dokumente, pravdepodobnosť že odpoveď existuje

  • začiatok, koniec, pravdepodobnosť

Zoberie relevantné dokumenty, zoradí ich podľa pravdepodobnosti a vyberie oblasť odpovede

Trénovanie neurónovej siete pre automatické odpovede

  1. Predtrénovanie: Najprv zoberieme veľa textov a zostavíme jazykový model
  2. Dotrénovanie: Zoberieme jazykový model a trénovaciu databázu, upravíme neurónovú sieť a trénujeme na úlohy generovania otázok a odpovedí.

Vytváranie trénovacej databázy

  • Zobrazí sa odsek.
  • Napíšte otázku.
  • Vyznačne odpoveď v odseku.

Záver

Funguje to.
Reload?