Task #3803: OCR - jazykový model v Tesseractu - NAKI-II-USTR-UKONCENE - Projects of Department of Cybernetics & NTIS P1 - Cybernetic Systems, University of West Bohemia

Actions

Copy link

Task #3803

closed

Task #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod

OCR - jazykový model v Tesseractu

Added by Zajíc Zbyněk over 10 years ago. Updated over 6 years ago.

Status:

Closed

Priority:

High

Assignee:

Neduchal Petr

Start date:

18.04.2016

Due date:

05.11.2018

% Done:

100%

Estimated time:

(Total: 0.00 h)

Description

aktualizovat LM v Tesseractu, tak aby jsme z něj mohli dostat eventuálně: slovní/znakový přepis, lattice

Subtasks 5 (0 open — 5 closed)

Actions

Copy link

Updated by Hrúz Marek about 10 years ago

Assignee changed from Neduchal Petr to Soutner Daniel

Actions

Copy link

Updated by Soutner Daniel about 10 years ago

Před jazkyovým modelel bude třeba také asi natrénovat na font "psací stroj". Návod by mohl být zde: http://www.joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03/

Actions

Copy link

Updated by Soutner Daniel about 10 years ago

Oficiální popis tréninku LM zde:
https://github.com/tesseract-ocr/tesseract/wiki/tesstrain.sh

Není mi z toho jasné jeslti je to i tzv. "cube" language model, který má být lepší. Dokumentace k němu asi není (?), info se dá najít na googlegroups tesseract-ocr.
Opředeno tajemstvím :)

Actions

Copy link

Updated by Zajíc Zbyněk about 10 years ago

zatím lze získat z OCR jen 1Best hypotézu, ale zle získat fonémový lattice (slovní lattice asi nedostupný) - lze pak zpracovat vlasním LM
zapojení vlastního LM nahráním trénovcacích dat

DS- doplnit data do Tesseractu a vyzkouší zpracovat lattice vlastními metodami

Actions

Copy link