Výskumné projekty v oblasti spracovania prirodzeného jazyka
Vedecký projekt
Príprava na bakalársky projekt pre študentov 2. ročníka programu Počítačové siete.
Vedúci: Ing. Daniel Hládek PhD.
Požiadavky:
- Chuť naučiť sa niečo nové.
Obsah:
- Naštudujete si zadanú problematiku.
- Naučte sa základy jazyka Python.
- Podrobne si prejdite minimálne dva tutoriály.
- Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli.
Vyhodnotenie a dotrénovanie generatívnej umelej inteligencie
- Vypracovať prehlad existujúcich spôsobov vyhodnotenia a množín pre trénovanie a veľkých jazykových modelov
- Vykonať strojový preklad vybranej dátovej množiny
RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
- Zistite čo je to Retrieval Augmented Generation a napíšte o tom správu.
- Nainštalujte si a vyskúšajte softvér PrivateGPT
Bakalárske práce
Ak ste študentom 2. alebo 3. ročníka odboru Počítačové siete na KEMT a máte záujem o niektorú z týchto tém, napíšte e-mail na daniel.hladek@tuke.sk.
Naučíte sa:
- niečo o spracovaní prirodzeného jazyka
- vytvárať webové aplikácie
- pracovať s nástrojmi v jazyku Python
- prekonávať technické problémy
Požiadavky:
- chcieť sa naučiť niečo nové
Dolovanie otázok a odpovedí vo webovom korpuse.
- Vytvorte webový korpus otázok a odpovedí v slovenskom jazyku. Preskúmajte existujúce dáta zo slovenského internetu a nájdite časti kde sa nachádzajú otázky a odpovede.
- Spracujte nájdené otázky a odpovede do podoby vhodnej na strojové spracovanie.
Vyhľadávanie právnych informácií pomocou neurónových sietí
- Oboznámte sa s existujúcimi modelmi pre vyhľadávanie v texte.
- Vytvorte systém pre vyhľadávanie v zákonoch a vyhláškach.
- Vyhľadajte súvisiace paragrafy so zadanou otázkou
- Vyhodnotte či je zadané tvrdenie v súlade s legislatívou alebo nie.
Korekcia textu pomocou neurónových sietí
- Oboznámte sa s existujúcimi systémami pre neurónový strojový preklad.
- Aplikujte existujúci model na opravu textu vo vybraných úlohách.
- Vyhodnnotte model pomocou overovacej množiny.
Staršie témy
Dialógový systém pomocou RASA
- Nainštalujte si a vyskúšajte framework RASA
- Vytvorte pravidlá pre chabota hovoriaceho po slovensky.
Práca s frameworkom ParlAI
- Nainštalujte si a vyskúšajte framework ParlAI
- Vypracujte tutriál.
Tvorba slovenského webového korpusu
- Zostavte zoznam kvalitných zdrojov slovenských textov.
- Nastavte agenta pre zber textu pre zber textu zo slovenského internetu.
- Vytvorte webovú aplikáciu pre sledovanie zberu.
Slovenská konverzačná umelá inteligencia
- Oboznámte sa s exitujúcimi modelmi pre generovanie slovenkého jazyka.
- Pripravte korpus diskusií v slovenskom jazyku. Vyberte vhodný zdroj diskusí a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Napr. modrý koník, modrá strecha, íné diskusie.
- Natrénujte neurónovú sieť pre odpovedanie v diskusiách.
- Vytvorte webové demo.
Dialógový systém pre potreby samosprávy
- Zostavte bázu pravidiel dialógového systému pre komunikáciu samosprávy s občanmi pre riešenie problémov súvisiacich s vybranou agendou.
- Vytvorte množinu pre vyhdnotenie navrhnutej databázy.
Systém pre monitoring médií
- Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí
- Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v proavidelných intervaloch.
Systém pre generovanie textu
- Natrénujte neurónovú sieť tak aby vedela generovať nové texty na základe zadaných vstupov
- Vytvorte virtuálneho poradcu, ktorý bude "riešiť" zadaný problém. Na naučenie použite existujúcu databázu "dobrých" rád zo servrov typu "Modrý koník".
Extrakcia informácií z webových stránok
- Naštudujete si knižnicu BeautifulSoup a navrhnete skripty pre parsovanie niekoľkých webových stránok
Dotrénovanie jazykových modelov
- Naučte sa pracovať s knižnicou HuggingFace transformers.
- Naučíte sa základy neurónových jazykových modelov.
- Dorénujete neurónovú sieť na vybraný problém.