Часть полного текста документа:Содержание Введение Технические параметры Возможности системы. Аппаратное обеспечение. Программное обеспечение. Описание структуры системы и принципа ее работы Описание метода Описание программы Структура базы для хранения эталонных символов Текст программы Введение В настоящее время, с ростом числа персональных компьютеров, огромное количество информации вводится с бумажных носителей на магнитные диски компьютеров. Разумеется это очень утомительная работа. И было бы неплохо иметь в своем распоряжении программное средство, которое было бы способно воспринимать входное изображение документа, которое вообще говоря является картинкой, и преобразовывать его в текст, отбрасывая при этом все лишнии детали изображения ( такие как линии разметки, обрамления и т.п. ). Этот вопрос волнует многие фирмы по разработке программного обеспечения и сейчас в мире разработано несколько программ для распознавания машинописного текста. Но это только начальный этап на пути решения данной задачи. Данные программные продукты распознают текст с довольно большой вероятностью ошибки при условии некачественного изображения. О том, чтобы распознавать рукописный текст пока даже не приходится и говорить. Целью разработки данной программной системы является детальное изучение данного вопроса и создание алгоритма, позволяющего преобразовывать графическое изображение в текст. Единственное отличие данной системы от разработанных ранее это то, что распознавать предстоит иероглифы. Эти знаки имеют существенное отличие от привычной нам кириллицы и латинских символов. Уже одно то, что они состоят из множества различных узоров отбрасывает идею строить распознавание на апроксимировании изображения символа с помощью какой либо функции. Хотя здесь можно попробовать использовать фрактальные преобразования, с помощью которых можно описать любое сколь угодно сложное изображение. Но теория, описывающая применение данных преобразований является коммерческой тайной и является недоступной. Технические параметры Возможности системы. Система обеспечивает ввод сканированного изображения текста из графического файла, записанного в одном из форматов: PCX, BMP, WMF, JPEG, GIF. Размер изображения не должен превышать 3000 х 3000 точек. Режим сканирования должен быть выбран так, чтобы размеры отдельного символа (иероглифа) не превышал 30 пикселов и был не менее 5 пикселов. Допускается наклон строк к горизонтали не более чем на 6°. Расстояние между отдельными строками текста не должно быть меньше 1/5 максимальной высоты иероглифа. Система обеспечивает разделение введенного текста на отдельные строки и на отдельные символы. Результатом работы является визуальное разделение текста на строки и символы, а также текстовый файл, содержащий координаты каждого выделенного символа текста в порядке выделения. При разделении символов система использует правило начертания иероглифов, в соответствии с которым отдельный иероглиф вписывается в более или менее правильный квадрат. Следовательно, не гарантируется, что тексты, начертание символов которых не соответствуют данному правилу, будут разбиваться на символы корректно. Также в качестве дополнения к обработке изображения система способна выделять отдельно вертикальные и горизонтальные линии. ............ |