Task #3803
closedTask #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod
OCR - jazykový model v Tesseractu
100%
Description
aktualizovat LM v Tesseractu, tak aby jsme z něj mohli dostat eventuálně: slovní/znakový přepis, lattice
Updated by Hrúz Marek almost 9 years ago
- Assignee changed from Neduchal Petr to Soutner Daniel
Updated by Soutner Daniel over 8 years ago
Před jazkyovým modelel bude třeba také asi natrénovat na font "psací stroj". Návod by mohl být zde: http://www.joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03/
Updated by Soutner Daniel over 8 years ago
Oficiální popis tréninku LM zde:
https://github.com/tesseract-ocr/tesseract/wiki/tesstrain.sh
Není mi z toho jasné jeslti je to i tzv. "cube" language model, který má být lepší. Dokumentace k němu asi není (?), info se dá najít na googlegroups tesseract-ocr.
Opředeno tajemstvím :)
Updated by Zajíc Zbyněk over 8 years ago
- zatím lze získat z OCR jen 1Best hypotézu, ale zle získat fonémový lattice (slovní lattice asi nedostupný) - lze pak zpracovat vlasním LM
- zapojení vlastního LM nahráním trénovcacích dat
DS- doplnit data do Tesseractu a vyzkouší zpracovat lattice vlastními metodami
Updated by Zajíc Zbyněk almost 8 years ago
z lattice vygenerovat slovní přepis (doplnit např. konfuzní tabulku, ...)
Updated by Zajíc Zbyněk over 7 years ago
- WER cca 45% (s LM z novin) https://docs.google.com/spreadsheets/d/1d3UJSlz3XRccygMNnTyxDNwLrrHfCox9Ywnu9LdxATQ/edit#gid=0
- získat lepší LM
- přidat info o pozici slova na stránce
Updated by Soutner Daniel almost 7 years ago
Mřížky poslány JŠ, jsou tady: /data-kky/public/dsoutner/ocr-lattice
Updated by Soutner Daniel over 6 years ago
- Assignee changed from Soutner Daniel to Neduchal Petr
Updated by Zajíc Zbyněk over 5 years ago
- Status changed from Assigned to Closed