Машинный перевод

Тип статьи:
Перевод

В конце 1950-х годов исследователи из США, России и Западной Европы были уверены, что высококачественный машинный перевод (МП) научно-технических документов станет возможным в течение нескольких лет. После того как прогноз оставался нереализованным в течение десяти лет, Национальная академия наук США опубликовала цитируемый, но малоизвестный отчет ALPAC (Automatic Language Processing Advisory Committee; Совещательный комитет по вопросам автоматической обработки естественного языка). Отчет ALPAC рекомендовал перенаправить ресурсы, которые тратились на МП как на решение насущных практических проблем, на более фундаментальные вопросы обработки языка, на которые необходимо было ответить до создания любой переводческой машины. Количество лабораторий, работающих в этой области, резко сократилось по всему миру, и лишь немногие из них смогли получить финансирование для более долгосрочных исследовательских программ в области того, что потом стало известно как компьютерная лингвистика.

В 1980-х годах возродился интерес к машинному переводу, и, хотя принятые подходы мало чем отличались от подходов 1960-х годов, многие усилия, особенно в Японии, были быстро признаны успешными. Похоже, что это было связано не столько с достижениями в области лингвистики и программного обеспечения или с увеличением размеров и скорости компьютеров, сколько с более глубоким пониманием особых ситуаций, в которых изобретательность может обеспечить ограниченный успех начальных технологий МП. Наиболее ярким примером является система METEO, разработанная в Университете Монреаля, которая уже давно обеспечивает французский перевод прогнозов погоды, используемых авиакомпаниями и судоходными компаниями. Некоторые производители оборудования нашли возможность переводить руководства по техническому обслуживанию, используемые в их организациях, в основном автоматически, так как эти руководства пишутся используя особую лексику и язык.

Почему машинный перевод — это сложно


Сложность машинного перевода обусловлена многими факторами, включая многозначность, предложения с несколькими грамматическими структурами, неопределенность местоимений, и другие проблемы грамматики. Однако из-за двух распространенных заблуждений перевод кажется совсем не таким простым, как он есть на самом деле. Во-первых, перевод не является в первую очередь лингвистической операцией, а во-вторых, перевод не является операцией, сохраняющей смысл.

Есть старый пример, который хорошо объясняет первый пункт.

Рассмотрим предложение:

The police refused the students a permit because they feared violence.

Предположим, что его нужно перевести на такой язык, как французский, в котором слово «полиция» женского рода. Предположительно, местоимение, которое переводит «они», также должно быть женского рода. Теперь замените слово «боялись» на «отстаивали». Теперь, внезапно, кажется, что «они» относится к студентам, а не к полиции, и если слово «студенты» мужского рода, то оно требует другого перевода. Знания, необходимые для того, чтобы прийти к таким выводам, не имеют ничего лингвистического. Оно связано с повседневными фактами о студентах, полиции, насилии и тех видах отношений, в которые, как мы видели, они вступают.

Второй момент, конечно, тесно связан с этим. Рассмотрим следующий вопрос, заданный на французском языке: Ou voulez-vous que je me mette? Это означает буквально: «Куда вы хотите, чтобы я себя поставил?», но это очень естественный перевод целого семейства английских вопросов вида «Где вы хотите, чтобы я сидел/стоял/подписал свое имя/припарковался/привязал свою лодку?». В большинстве ситуаций английское «Where do you want me?» было бы приемлемым, но добавление или удаление информации для получения беглого перевода является естественным и обычным делом. Иногда этого невозможно избежать, потому что есть языки, такие как французский, в котором местоимения должны указывать число и род, японский, где местоимения часто вообще опускаются, русский, где нет артиклей, китайский, где существительные не различают единственное и множественное число, а глаголы — настоящее и прошедшее время, и немецкий, где гибкость порядка слов может оставить неопределенность относительно того, что является субъектом, а что — объектом.

Структура систем МП

С учетом вариантов, большинство систем МТ, и, конечно, те, которые нашли практическое применение, имеют большой лингвистический опыт в их разработке. В них есть лексические, морфологические, синтаксические и, возможно, семантические компоненты, по одному для каждого из двух языков, для обработки основных слов, сложных слов, предложений и значений. Каждый из них вливается в следующий, пока последний в цепочке не создаст очень абстрактное представление предложения.

Автор — M. Kay
Перевод — Полищук Денис

RSS
Нет комментариев. Ваш будет первым!
Загрузка...
Этот сайт использует файлы cookies, чтобы облегчить вам пользование нашим веб-сайтом. Продолжая использовать этот веб-сайт, вы даете согласие на использование файлов cookies. Подробнее о том, как мы пользуемся файлами cookies и как ими управлять, вы можете узнать нажав на ссылку ниже.
Меню