ИСПОЛЬЗОВАНИЕ КОМПЬЮТЕРНЫХ ПРОГРАММ ДЛЯ ПЕРЕВОДА ТЕКСТОВ,



СОДЕРЖАЩИХ ЮРИДИЧЕСКУЮ ЛЕКСИКУ

Куракин Ф.В.,

студент 1 курса УО «ВГУ им. П.М. Машерова», г. Витебск, Республика Беларусь

Научный руководитель – Балло Ю.А., преподаватель

 

Потребность в качественных и быстрых переводах в мире ежедневно растет. Многие из нас сталкиваются с необходимостью перевода текста больших объемов. В этом случае быстро преодолеть языковой барьер можно с помощью систем машинного перевода (СМП). Как показывает практика, итоговый МП требует последующей доработки человеком из-за возникающих ошибок. В работе мы определили СМП, наиболее подходящую для перевода юридических текстов и выявили наиболее характерные ошибки, встречающиеся при переводе.

В работе речь идет о двух технологиях машинного перевода: традиционной (rule-based machine translation) и статистической (statistical-based machine translation).

Первая технология основана на применении правил (алгоритмов). Программа анализирует текст и на основе проведенного анализа синтезирует вариант перевода. Работа такой системы сходна с процессом мышления человека: система анализирует текст, используя множество алгоритмов (Переводчики Promt, Babylon, Microsofttranslate, Pragma)

Статистическая технология основана на использовании заранее переведенных текстов. Для работы системы необходимы огромные базы параллельных текстов, где попарно хранятся словосочетания (фразы из 2–3 слов) и их переводы, так называемые N-граммы. Система подбирает вариант перевода, основываясь на частоте совпадений, то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий процент совпадений (Google-переводчик, новый сервис от ABBY).

В работе использованы отрывки из документов с официального сайта ООН (http://www.un.org) и официального Интернет-ресурса Интерпола (http://www.interpol.int) так как: а) в данных текстах используется преимущественно юридическая лексика; б) документы ООН имеют официальный перевод на русский язык (эталонный перевод, выполненный заранее переводчиком-специалистом, подходит для проверки программ, построенных на statistical-based алгоритмах); в) тексты Интерпола подходят как для rule-based, так и для statistical-based программ. Англоязычные версии текстов были переведены с помощью описанных выше программ. Сохранена структура переведенных текстов.

Для исследования были выбраны online-переводчик фирмы Google (statistical-based алгоритм) и Promt Professional 9.0 (rule-based алгоритм). Процесс отбора был следующим:

а) загрузка текста в переводчики; б) разбивка переведенного текста на слова; в) сопоставление МП слова с эталонным переводом; г) вычисление «процента правильности» (ПП): (кол-во корректно переведенных слов)/(общее кол-во слов в тексте); д) сравнение ПП МП различных переводчиков; е) начисление балла переводчику-«победителю»; ж) процесс повторяется от (2) до (K+1) раз, где K – кол-во программ-переводчиков; з) подсчет общей суммы баллов.

Данным программам был предложен контрольный текст для перевода. По результатам перевода было произведено непосредственное сравнение и анализ переведенных текстов, выполненного двумя системами МП (Promt Professional 9.0, Google-переводчик).

Процесс анализа:

1. Разбивка текста на логические конструкции – словосочетания;

2. Анализ некорректно переведенных слов и словосочетаний:

3. Морфемный анализ слов – грамматическая совместимость;

4. Лексическая совместимость.

В ходе исследования мы выделили следующие типы ошибок МП:

· Искажение (существенная деформация текста)

· Неточности (менее существенная деформация относительно предмета высказывания)

· Неясность (отличается от искажения и неточности тем, что оказывает на читателя не столько дезинформирующее, сколько дезориентирующее воздействие).

У обеих программ-переводчиков возникают ошибки всех трех типов. По результатам переводов сделан вывод, что наиболее адекватный перевод был сделан программой фирмы Google.

Слабым местом статистических систем является отсутствие механизма анализа грамматических правил входного и выходного языков. Поэтому в переводах текстов часто встречаются ошибки, связанные с неправильным согласованием слов. Но юридический язык достаточно формализован и основан на шаблонах. Для подобных текстов больше подходит statistical-based алгоритм. Данные СМП также требуют совершенствования, в частности, «обучения» правилам. Но если говорить об «идеальном» соотношении (rule/statistic) компонентов в программе, то, по нашему мнению, знаменатель данной дроби должен превышать числитель и разработчикам следует обратить на это внимание.

 

Литература:

1. Жигалов В. Проблемы машинного перевода // Компьютера, 2002, № 21, с. 26-37.

2. Кулагина О.С. О современном состоянии машинного перевода // Математические вопросы кибернетики, М.: Наука, 2010, стр. 5—50.

3. Марчук Ю.Н. Проблемы машинного перевода. - M.: Наука. - 2005

 

 


Дата добавления: 2018-05-09; просмотров: 224; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!