WikiDer > HOCR
Эта статья нужны дополнительные цитаты для проверка. (Май 2010 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
hOCR это открытый стандарт представления данных для форматированного текста, полученного из оптическое распознавание символов (OCR). Определение кодирует текст, стиль, информацию о макете, показатели достоверности распознавания и другую информацию, используя расширяемый язык разметки (XML) в виде Язык гипертекстовой разметки (HTML) или XHTML.[1]
Программного обеспечения
Следующее программное обеспечение OCR может выводить результат распознавания в виде файла hOCR:
Пример
Следующий пример представляет собой отрывок из файла hOCR:
...<п учебный класс='ocr_par' язык='deu' заглавие="bbox930"> <охватывать учебный класс='ocr_line' заглавие="bbox 348 797 1482838; исходный -0,009 -6"> <охватывать учебный класс='ocrx_word' заглавие='bbox 348 805 402 832; x_wconf 93 '>Умереть</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 421 804 697 832; x_wconf 90 '>Darlehenssumme</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 717 803 755 831; x_wconf 96 '>ist</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 773 803 802 831; x_wconf 96 '>в</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 821 803 917 830; x_wconf 96 '>ихрем</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 935 799 1180 838; x_wconf 95 '>Ursprünglichen</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 1199 797 1343 832; x_wconf 95 '>Umfange</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 1362 805 1399 823; x_wconf 95 '>цзу</охватывать> <охватывать учебный класс='ocrx_word' заглавие='bbox 1417 x_wconf 96'>вер-</охватывать> </охватывать> ...
Распознанный текст сохраняется в обычных текстовых узлах HTML-файла. Распределение на отдельные строки и слова здесь задается окружающими охватывать теги. Кроме того, используются обычные HTML-сущности, например п тег для абзаца. Дополнительная информация приводится в таких свойствах, как:
- различные элементы макета, такие как «ocr_par», «ocr_line», «ocrx_word»
- геометрическая информация для каждого элемента с ограничивающей рамкой "bbox"
- языковая информация "lang"
- некоторые значения достоверности "x_wconf"
Смотрите также
- ALTO (XML) - другой формат представления данных OCR
Рекомендации
- ^ Бреуэл, Т. (01.09.2007). «Микроформат hOCR для рабочего процесса и результатов OCR». Девятая Международная конференция по анализу и распознаванию документов (ICDAR 2007). 2: 1063–1067. Дои:10.1109 / ICDAR.2007.4377078. ISBN 978-0-7695-2822-9.
внешняя ссылка
- спецификация текущей версии 1.2
- hocr-tools - инструменты для управления и оценки формата hOCR на GitHub
- ocr-fileformat - Программное обеспечение, которое проверяет и преобразует различные форматы файлов OCR, включая hOCR на GitHub
Этот компьютер-хранилище-связанная статья является заглушка. Вы можете помочь Википедии расширяя это. |