Task #3707
closed
Task #3637: Etapa 01 - Nová strukturace poradenských hovorů – návrh automatické segmentace
Zpracování dat z emailů - témata
Added by Zajíc Zbyněk about 9 years ago.
Updated over 5 years ago.
Description
Zkusit na emailech (až je ÚJČ předá na FTP #3696)
-detekci klíčových slov
-klustrovací metody
Files
data od ÚJČ budou na poli v korpusech v adresáři NAKI-II-UJC, heslo napsána na redmine wikki projektu naki-ii-ujc-privat
- Due date changed from 01.05.2016 to 23.05.2016
- % Done changed from 0 to 20
Přehled výsledků připravit před schůzí s UJČ.
Testování shlukovacích algoritmů na dopisech ukázalo, že dokážeme najít často se vyskytující jevy v dotazech:
- psaní cikán / rom
- přechylování příjmení
- psaní ulic s předložkou
- jaký pád se používá při oslovení
- psaní počátečních velkých písmen
- pravidla velkých písmen u psaní názvů měst
- psaní přídavných jmen "řídící" "měřící" "kropící" .....
- skloňování příjmení
- že jazyková poradna není právní poradna
- norma úpravy písemností strojem
Další postup
- v přípravě zapojení lemmatizace, normalizace - může trochu zlepšit výsledky
- chtělo by to anotované dopisy
Aleš říká, že online přepis není problém (kontinuálně i např. po pauze předávat slova), proto zkoumej i klasifikaci témat online.
- Due date changed from 23.05.2016 to 30.06.2016
- lematizace dost vylepšuje shlukování témat
- na jakékoli další experimenty to chce anotovana data
- Due date changed from 30.06.2016 to 01.08.2017
- Status changed from Assigned to Closed
Also available in: Atom
PDF