БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И РАДИОЛЕКТРОНИКИ
Кафедра интеллектуальных информационных технологий
РЕФЕРАТ
на тему:
«Направления компьютерной лингвистики»
МИНСК, 2008
Так как вопросов, изучаемых компьютерной лингвистикой, немало, то со временем в ней выделился ряд направлений, посвященных отдельным аспектам автоматической обработки естественного языка. В настоящее время в компьютерной лингвистике выделяют пять основных направлений (Информатика).
1. Анализ текстов на естественном языке. Лингвисты давно изучают, как устроен текст, и прежде всего предложение, играющее роль кирпичика, из совокупности которых складывается текст. Но лишь с появлением компьютеров эти исследования приобрели новое направление. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, — автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов.
В ходе этих работ надо было ответить, прежде всего, на вопрос: "Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?" Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась.
В результате проведенных исследований стало ясно, что за каждым текстом (в том числе и за отдельным предложением, являющимся своего рода мини-текстом) скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня (Информатика)
- синтаксический
- семантический
- прагматический.
Более подробно эти и другие уровни анализа текстов естественного языка будут рассмотрены ниже.
Как указывалось выше, направление анализа текстов на естественном языке появилось в связи с желанием решить проблему машинного перевода. Машинный перевод — это автоматический перевод текстов с одного языка на другой (например, пословный перевод научно-технической информации, патентов, документов, инструкций, программ ЭВМ с алгоритмического на машинный язык), а также научное направление, охватывающее круг проблем, которые возникают при автоматизации перевода. Система машинного перевода обычно содержит лингвистические описания входного и выходного языков, т.е. языков исходного текста и текста, полученного в результате перевода, и алгоритм, на основе которого выполняется данный перевод (Информатика).
Со временем (в 50-х гг. 20-го в.) проблема машинного перевода переросла в отдельную научно-техническую проблему и фактически обрела черты отдельного научного направления с одноименным названием. Это направление возникло на стыке таких наук, как математика, кибернетика, лингвистика и программирование. Тем не менее, основу машинного перевода как научного направления составляют результаты, полученные в области компьютерной лингвистики.
2. Синтез текстов на естественном языке. Задача синтеза может рассматриваться как обратная по отношению к анализу. Если заданы некоторая тема и цель будущего текста, то можно считать заданной прагматическую структуру текста. Ее надо декомпозировать в прагматические структуры отдельных предложений и для каждого предложения пройти все этапы анализа в обратном направлении. ............