Task #3957
closed
Task #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod
OCR - čtení hlavičky/nadpisu dokumentu
Added by Zajíc Zbyněk over 8 years ago.
Updated over 6 years ago.
Description
k určení tématu/klasifikace dokumentu
- Due date changed from 30.09.2016 to 31.08.2016
- Assignee changed from Hrúz Marek to Neduchal Petr
analýza lokace, velikosti textového bloku...
čtení a zjištění co v tom je.
- Due date changed from 31.08.2016 to 31.10.2016
- % Done changed from 0 to 60
Provedena řada pokusů založených výhradně na vlastnostech obrazu (velikost textového bloku, počet znaků v textovém bloku, druh znaků, atp). Při kvalitním rozpoznání většinou dobré výsledky. Problém nastává při nerozpoznání bloku (spojení s jiným blokem) či špatném rozpoznání textu. To se dá odstranit lepším rozpoznáváním, lepším předzpracováním (také řešíme).
Pravděpodobně bude také potřeba projít dokumenty a vytvořit seznam typů dokumentů. Na to zkusím vymyslet metodiku tak aby se do toho mohlo pustit více lidí a nedocházelo k zavádění různých tagů pro jeden druh dokumentu.
- Status changed from Assigned to Resolved
- % Done changed from 60 to 100
Resolved --> Task je díky velkému rozptylu ve vzhledu dokumentů těžko vyřešitelný. Možná by v něm šly využít anotace tagů, které se před nedávnem dělaly. Stejně by ale zůstal problém velkých rozdílů ve vzhledu dokumentů
- Status changed from Resolved to Closed
Also available in: Atom
PDF