Заметка о OCR

Тип статьи:

Авторская

Компьютерной лингвистике и машинному переводу часто помогает технология называемая Opticalcharacterrecognition (OCR). Эта технология позволяет автоматические опознавать написанные символы с помощью камеры или любого другого устройства визуализации. Технологии OCR способы распознавать рукописный и печатный текст. Точность распознавания напрямую зависит от качества текста.

Одной из таких систем является система Tesseract. Tesseract умеет работать с черным текстом на белом фоне, так и с белым текстом на черном фоне. Tesseract определяет слова в несколько этапов. Первый этап пытается определить слова, ближайшее правильно определенное слово передаётся в адаптивный классификатор в виде тренировочных данных, это помогает распознать текст точнее. Второй этап состоит из слов, которые не были определены точно в первом этапе. Чтобы распознать эти слова анализ текста проводится снова.

OCR первого поколения появились в шестидесятые года двадцатого века, и использовали специальный шрифт для распознавания текста, который годился только ради этих систем. В то время существовали печатные машинки, которые позволяли печатать текст используя несколько шрифтов.

OCR второго поколения начали развиваться между шестидесятыми и семидесятыми годами. Эти системы могли распознавать текст, который был написано в печатной машинке, а также имели возможности по распознанию рукописного текста.

Первой системой второго поколения стала IBM 1287, которую представили на Нью-Йоркской выставке в 1965 году. Этот период можно охарактеризовать эпохой стандартизации. В 1966 году, в США, появился первый набор стандартных символов OCR-A. Этот набор выполнял две задачи: быть удобным для чтения системами OCR и человеком. Тогда же возник, в Европе, возник стандарт OCR-B. Главным отличием было количество символов. В европейском наборе присутствовали стандартные символы для Европы. Существовали попытки совместить OCR-A и OCR-B, что закончилось не объединением наборов, а адаптацией аппаратных комплексов под оба набора.

Третье поколение появилось в середине семидесятых годов. Главной задачей, которую предстояло решить новым системам, стало распознавание документов плохо качества и объемных массивов рукописного текста. Благодаря сильному развитию компьютерных технологий, системы OCR стали быстрее и дешевле.

Системы OCR позволили всему учёному сообществу и человечеству оцифровать древнейшие документы чтобы обеспечить их перевод. Системы OCR позволили интегрировать себя в системы машинного перевода для быстрого перевода визуальной информации.

Несмотря на не стопроцентную точность определения написанных текстов системами OCR, практическое применение данных систем позволяет ускорить процесс получения электронного эквивалента документа из бумажной версии для целей архивации, внесения корректировок и дальнейшего использования этих документов в электронном или бумажном виде.

Среды, где преобладает документооборот (медицина, энергетика, образование) имеют потребность в системах OCR. Операции по документообороту и передаче информации, которые когда-то занимали не один день, теперь занимают долю времени.

компьютерное зрение

—

02.07.2021

linguistic community

Комментарии

RSS

Написать комментарий

Нет комментариев. Ваш будет первым!