РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ СОЦИАЛЬНЫЙ УНИВЕРСИТЕТ
Контрольная работа
по предмету «Информатика»
на тему: «Этапы развития и сравнительный анализ программ оптического распознавания »
Студентка Ильина О.О.
Тольятти, 2010
Введение
оптическое распознавание коррекция ошибка
При работе с первоисточниками (или, как принято говорить при описании офисных технологий, с исходными документами) наиболее оптимальным может оказаться ввод какой-либо первичной текстовой информации без помощи клавиатуры. Такой способ может быть реализован получением данных из глобальных или локальных компьютерных сетей, посредством распознавания речи или оптического распознавания текста. В данной статье пойдет речь о последнем из названных способов.
Имея текст, напечатанный в типографии, на пишущей машинке, на принтере, копировальном аппарате, в факс-машине, то есть буквально текст любого происхождения, теперь - даже написанным от руки, Вы можете без помощи клавиатуры получить его в электронном виде для последующего редактирования, перевода или хранения на компьютере. Для этого Вам потребуются сканер и программа, называемая системой оптического распознавания - OCR. Каждый такой программный продукт имеет простейший автоматический режим "сканируй и распознавай", реализованный с помощью одной кнопки. Однако для того, чтобы достигнуть лучших из возможных для данной системы результатов, желательно (а нередко и обязательно) предварительно заниматься "ручной" настройкой системы распознавания на конкретный вид текста, а точнее на способ и качество начертаний букв и других знаков. Чтобы проделывать такие настройки, в меню программ обязательно отражены соответствующие регуляторы, но пользоваться ими удобнее при некотором знакомстве с принципами оптического распознавания.
Как работает система оптического распознавания
Фактически, когда Вы читаете (например книгу), то не представляете, какую работу делает Ваш мозг, чтобы преобразовать образцы чернильных или типографских меток в осмысленный текст. Компьютеры, однако, еще борются за решение этой одной из основных задач при создании машинного интеллекта.
Современное состояние OCR отвечает уровню, при котором довольно много систем могут быть весьма надежны, когда они имеют дело с чистым четким текстом, однако компьютерным программам все же еще далеко до того, чтобы предложить пользователю такую же безупречную точность, как предлагает другой помощник мозга человека - калькулятор. Большинство систем OCR работают с растровым изображением, которое получено через факс-модем или сканер. Для тех, кто никогда не видел OCR, обозначим скороговоркой этапы распознавания отсканированной страницы с точки зрения манипуляций над изображением текста. Делая "первый шаг", OCR должен разбить страницу на блоки текста, основанного на особенностях правого и левого выравнивания и наличия нескольких колонок. Потом эти блоки разбиваются в индивидуальные метки чернил (типографской краски и т.п.), которые, как правило, соответствуют отдельным буквам. Алгоритм распознавания делает предположения относительно соответствия чернильных меток символам; а затем делается выбор каждой буквы и цифры. ............