Ing. Daniel Hládek PhD.
daniel.hladek@tuke.sk
Rastie potreba spracovávať veľké množstvo človekom vytvoreného textu alebo hovorenej reči
Čo je spracovanie prirodzeného jazyka Natural Language Processing (NLP)
Kombinácia viacerých techník z oblasti:
Spracovanie prirodzeného jazyka získavaním znalostí pomáha pri bežných činnostiach.
dáta => informácie => znalosti
text => príznaky => zistenia
(dá sa premeniť na peniaze).
Typické úlohy NLP
Motivačný príklad: Alexa, WolframAlpha, Siri
Počítač "porozumie" ľudskej komunikácii
Každý Váš deň:
Google, Facebook, Apple
Porozumenie otázke : Google, počítačové hry, WolframAlpha (Siri) Fulltextové vyhľadávanie: Google Cielenie reklamy: AdSense, eTarget
Ohodnotenie sentimentu a detekcia nevhodných alebo podozrivých príspevkov: Facebook , LinkedIn
Strojový preklad: Googe Translate Detekcia spamu: Spam Assasin, Gmail
Získavanie informácií (Information Retrieval)
Vyhľadávanie na webe napr. Vyhľadanie stránok súvisiacich s “natural language processing”
Monitoring médií Čo všetko sa napíše alebo odvysiela v televízii alebo v rádiu o mojej spoločnosti?
Cielenie reklamy
Analýza sentimentu na sociálnych sieťach
Dolovanie v dátach a získavanie znalostí Aká je priemerná cena hamburgeru v Južnej Amerike?
Prepis textu (Machine Translation):
Strojový preklad. Napr. Ako sa povie “Dnes je pekný deň” po japonsky?
Parafrázovač. Napr. Akým iným spôsobom sa dá povedať “Mám rád bryndzové halušky”
Porozumenie jazyku (Natural Language Understanding)
Chatboty, Umelý psychiater.
“Umelá inteligencia” - počítač na lodi Enterpise, ktorý rozumie slovným príkazom kapitána a vie mu odpovedať na jeho požiadavky Morfologická analýza (hľadanie gramatickej a sémantickej funkcie slova)
Prirodzený jazyk je veľmi neurčitý (ambiguity)
Homonymá:
Práve sedím v škole. Nevyznám sa v občianskom práve.
To auto stojí 10000 eúr. Auto stojí na kraji cesty.
Synonymá:
Išiel som do Bratislavy. Išiel som do Blavy.
Neurčité poradie slov vo vete:
Dnes je pekný deň. Pekný deň je dnes. Deň je dnes pekný.
Neurčitý význam slov:
„Po tráve sa nechodí, po tráve sa smeje”
Novotvary a slangové výrazy:
Vygoogli si to a potom to postni na fb.
Emócie a spoločenské konvencie:
Pane! Pekne ste sa doriadil!
Preklepy a brepty:
Viď prednašku.
Počítačový jazyk je jednoznačný Potrebujeme metódy pre prácu s neurčitosťou
Práca s neurčitosťou v NLP
Klasifikácia kontextov
Mapovanie:
c => S
Využitie
Pri klasifikácii nám pomáha, ak vieme ktorá časť kontextu je dôležitá pre klasifikáciu.
Taká binárna funkcia kontextu, ktorá je pravdivá iba v prípade výskytu daného príznaku v kontexte. Vhodná sada príznakových funkcií nám pomáha riešiť problém.
Mapovanie
Symbol => jednotkový vektor
dnes => 0000100001
Extrakcia príznakov, klasifikácia
symbol=> príznakový vektor => trieda
Výpočtovo náročné
Mapovanie:
postupnosť => iná postupnosť
Enkóder:
symboly => príznaky => významový vektor
Dekóder:
model a významový vektor => výstupné symboly
Hlboké neurónové siete
Python
Elasticsearch
RASA
Jurafsky, Martin: Natural Language Processing Christopher Manning: Natural Language Processing, Stanford University Online Video Lectures