Activity
From 12.06.2016 to 11.07.2016
01.07.2016
- 11:22 Administration, support #3967 (Closed): Roční zpráva pro MK
 - *15.11. - souhrnná písemná periodická zpráva*
- zašlete v listinné a elektronické podobě k rukám příslušné administr... 
29.06.2016
- 13:49 Task #3804: unsupervised shlukování obrázků
 - shlukování vstupních dokumentů (BoW)
klasifikace typu vstupního dokumentu do tříd (obrázek, ručně psaný text, ...) - 13:46 Task #3957: OCR - čtení hlavičky/nadpisu dokumentu
 - analýza lokace, velikosti textového bloku...
čtení a zjištění co v tom je. 
28.06.2016
- 14:43 Task #3932: Získat obrazová data od ÚSTRu
 - Máme větší vzorek dat - viz adresář ARCHIVALIE PAMĚTNÍKU BEZ VODOZNAKU
 
27.06.2016
- 15:17 Task #3962 (Closed): Porovnat výsledky na OCR pro náš výsledek z TesseractApi a z modelu trénovaného v Tesseract
 - porovnat metody z #3960 a #3961
 - 15:15 Task #3961 (Closed): Dekódování grapheme-lattice na word-lattice
 - Z grafémových lattice získat word-lattice pro dlaší zpracování (rescorování s jinými jaz.modely, detekce tématu atd.)
 - 15:12 Task #3801: Úprava Pixly
 - * dohodnout si harmonogram prací
* vkládání obrázků do Pixly
* vkládání dat a jejich tagování - 15:11 Task #3960 (Closed): Natrénovat vlastní LM pro Tesseract dle jejich receptu
 - 15:05 Task #3959 (Closed): Tvorba LM
 - LM
- z přepsaných a zarovnaných anotací od ÚSTRU (#3931)
- získat další data od ÚSTRU: knihy, texty bez zvuku, anot... - 14:58 Task #3875 (Closed): Zjistit jak dostat z Tesseractu lattices pro další zpracování/rescoring
 - 14:56 Task #3803: OCR - jazykový model v Tesseractu
 - * zatím lze získat z OCR jen 1Best hypotézu, ale zle získat fonémový lattice (slovní lattice asi nedostupný) - lze pa...
 - 14:50 Task #3957 (Closed): OCR - čtení hlavičky/nadpisu dokumentu
 - k určení tématu/klasifikace dokumentu
 - 14:48 Task #3804: unsupervised shlukování obrázků
 - vyzkoušet na nových datech od ÚSTRU (pokud je jich dost)
 - 14:41 Task #3804: unsupervised shlukování obrázků
 - * unsupervised algoritmy shlukování (otestovat na učesaných prepisech z ÚSTR)
* najít podobná audia jako vzor (označ... - 14:35 Task #3954 (Closed): SW ALIGN
 - JVP se studentem finalizují SW *ALIGN* - "software pro podporu poloautomatického zarovnání nahrávek s existujícími př...
 - 14:33 Administration, support #3953 (Closed): připravit mlčenlivost pro studenta
 - připravit mlčenlivost pro studenta JVP - Align a učesání trénovacích dat.
 
23.06.2016
- 16:03 Task #3803: OCR - jazykový model v Tesseractu
 - Oficiální popis tréninku LM zde: 
https://github.com/tesseract-ocr/tesseract/wiki/tesstrain.sh
Není mi z toho jas... - 15:17 Task #3803: OCR - jazykový model v Tesseractu
 - Před jazkyovým modelel bude třeba také asi natrénovat na font "psací stroj". Návod by mohl být zde: http://www.joyofd...
 - 15:06 Task #3875: Zjistit jak dostat z Tesseractu lattices pro další zpracování/rescoring
 - Napojení na API + testovací prográmek hotov. Lze vypsat pro každý grafém jeho varianty s confidence. Otázka je, jestl...
 - 11:43 Task #3875: Zjistit jak dostat z Tesseractu lattices pro další zpracování/rescoring
 - Prozatím mám způsob jak dostat lattices s grafémy. Je třeba se napojit na API a trochu programování v C++, ale je to ...
 
22.06.2016
- 13:02 Task #3950 (Closed): Vygenerovat validacnu sadu pre OCR
 - 12:19 Task #3950 (Resolved): Vygenerovat validacnu sadu pre OCR
 - Vybráno a připraveno 5 souborů včetně přepisů. různá kvalita OCR (některé skoro celé OK, jiné naprosto hrozné). 
+... 
21.06.2016
- 17:27 Task #3940 (Closed): Nelinearna difuzia pre OCR
 - 14:39 Task #3951 (Assigned): Testovanie nelinearnej difusie na validacnych dokumentoch
 - 14:38 Task #3951 (Closed): Testovanie nelinearnej difusie na validacnych dokumentoch
 - Pre siroku skalu parametrov nelinearnej difusie spustit OCR na sade anotovanych obrazkov, ktore vznikli v #3950.
 - 14:33 Task #3950 (Closed): Vygenerovat validacnu sadu pre OCR
 - Pripravit minimalne 3 obrazky roznej kvality (bad/mediocre/good).
Prepisat dokumenty pre ucely automatickeho vyhodno... 
20.06.2016
- 06:47 Task #3940 (Resolved): Nelinearna difuzia pre OCR
 - Zjištění ohledně nelineární difuze: 
- Parametry jsou opravdu hodně citlivé. Změnou o jednotku se můžou části text... 
Also available in: Atom