компьютерный перевод
Предварительный просмотр:
Компьютерный перевод: перспективы и проблемы.
Автор: Цветкова Ольга Викторовна
В наше время современные технологии приходят на смену человеческому труду, делая нашу жизнь комфортной, разнообразной, динамичной. Но пока даже самая усовершенствованная автоматизированная программа переводчика заменить не может. Ведь речь идёт о творчестве, а перевод это занятие творческое.
Другое дело, что переводящая программа сможет действительно помочь в рутинной переводческой работе. Её можно использовать для перевода списков, таблиц и подобных грамматически не связанных текстов, которые переводить надо, но ужасно не интересно.
Кроме того, ‘’электронный переводчик’’ может оказаться полезным специалисту, который владеет иностранным языком в недостаточной мере, но вынужден работать с текстами на английском языке. Правда, здесь есть высокая вероятность того, что переводящая программа окажется тоже ‘’не очень сильна’’ в этом языке, и к её подсказкам рекомендуется относиться с большой осторожностью.
Огромное преимущество программы, в том числе и переводящей, перед человеком заключается не в более высоком уровне решения задач, а в работоспособности – она не устаёт, не хочет спать, не просит есть и не бастует.
Идея автоматизации перевода возникла почти одновременно с созданием компьютеров. Уже в 1949г., через пять лет после запуска в эксплуатацию в США первого достаточно мощного компьютера, математик У.Вивер обратился к ученым с призывом использовать компьютер для перевода.
Первые модели компьютерного перевода базировались на принципе перекодирования текста на одном языке в текст на другом: грамматика в традиционном понимании в них отсутствовала полностью. Позднее стали разрабатываться более сложные системы, включающие грамматику, семантику и даже экстралингвистическую (фоновую) информацию.
Элементы разных языков можно приравнять на основе их соответствия одному и тому же значению.
На этом принципе и основана работа переводящей системы – слова разных языков приравниваются друг другу на основе общности значения.
Для создания переводящей системы соответствия между словами разных языков закладываются в программу компьютера, и задача такой примитивной системы достаточно проста – для поступающих на вход слов одного языка она находит соответствие в другом языке и так слово за словом переводит текст.
Кроме того, соответствие слов разных языков друг другу не является однозначным, следовательно, в системе необходимо предусмотреть программу выбора правильного эквивалента.
Такие программы обычно основываются на двух принципах:
1).на принципе выбора эквивалента по синтаксической модели входного текста, чаще всего по синтаксической модели предложения. Таким образом, например, программа может различить эквиваленты глагола ‘’ to book’’и существительного ‘’ book’’ (соответственно, ‘’резервировать’’ и ‘’книга’’).
2).на принципе выбора эквивалента по семантической модели. По разным семантическим моделям программа, например, может различать такие эквиваленты слова ‘’ solution’’ как ‘’решение’’ и ‘’раствор’’.
В зависимости от сложности выбора правильного значения слов и, соответственно, правильного переводного эквивалента модели и системы компьютерного перевода можно разделить на три уровня.
К первому, низшему уровню относятся простейшие модели пословно-пооборотного перевода, в которых выбор эквивалентов не производится, и на выход системы перевода поступают все переводные эквиваленты, имеющиеся в словаре.
Системы второго уровня, используют ту или иную комбинацию синтаксических и семантических моделей для выбора правильного эквивалента и преобразования структуры входного текста в структуру текста перевода.
Модели третьего уровня применяют также и фоновые знания.
Системы низшего уровня можно сравнить с человеком, который переводит текст на совершенно незнакомом ему языке.
Система действует так же, как действуем в этом случае мы. Берёт первое слово, смотрит, есть ли оно в словаре в таком виде. Если есть, выписывает все его переводы, если нет, то ищет в таблице словоизменения форму слова, обнаруженную в тексте, определяет соответствующую словарную форму и выписывает все переводы. Затем берёт следующее слово и т.д.
В данном случае отличие от перевода, выполняемого человеком, состоит в том, что человек, выполняя перевод, отбрасывает все неподходящие переводные эквиваленты, система же компьютерного перевода низкого уровня этого не делает. Вот такой, например, получается перевод короткого предложения:
‘’Lead absorbs radiation’’
свинец/лот/грузило/вести/руководить/лидировать/руководство/
/лидерство/проводник;
всасывать/впитывать/абсорбировать/ароматизировать/поглощать;
излучение/радиация.
Система второго уровня по своим действиям напоминает более или менее опытного переводчика, который переводит текст на совершенно непонятную ему тему. Подобно такому переводчику система может отбросить наиболее неподходящие эквиваленты на основе анализа синтаксиса и семантики, причем глубина и точность такого анализа у программы будет зависеть от совершенства и полноты модели так же, как у переводчика, она зависит от полноты его профессиональных знаний.
Но так же, как переводчик, который совершенно не понимает содержания переводимого текста, переводящая программа этого уровня не сможет осуществить выбор эквивалентов на основе фоновой информации.
Можно, например, предположить, что такая система на основании анализа грамматического контекста (два глагола подряд), переводя предложение ‘’lead absorbs radiation’’, исключит глаголы в качестве эквивалентов слова ‘’lead’’, т.е. получит на выходе промежуточный текст:
свинец/лот/грузило/руководство/лидерство/проводник;
всасывать/впитывать/абсорбировать/ароматизировать/поглощать;
излучение/радиация.
Можно также предположить, что на основе элементарного анализа семантики субъекта ‘’lead’’ и предиката ‘’absorbs’’ и семантических отношений между ними программа исключит эквиваленты ‘’руководство’’ и ‘’лидерство’’, т.е. получить на выходе:
свинец/лот/грузило/проводник;
всасывать/впитывать/абсорбировать/ароматизировать/поглощать;
излучение/радиация.
После грамматического согласования перевод этого предложения, сделанный системой второго уровня, будет выглядеть приблизительно так:
Свинец (лот/грузило/проводник) всасывает
(впитывает/абсорбирует/ароматизирует/поглощает) излучение (радиацию).
А вот сделать выбор между словами ‘’свинец’’, ‘’лот’’, ‘’грузило’’ и ‘’проводник’’, между эквивалентами ‘’всасывает’’, ‘’впитывает’’, ‘’абсорбирует’’, ‘’ароматизирует’’, ‘’поглощает’’, а также между частичными синонимами ‘’излучение’’ и ‘’радиация’’ переводящая программа этого уровня не сможет, так как такой выбор можно сделать лишь на основе фоновых ( т.е. специальных ) знаний.
Выполнить качественный перевод без использования фоновых знаний невозможно, а системы второго уровня фоновую информацию использовать не могут.
Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.
Системы третьего уровня используют модели синтаксического и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего мира. К сожалению, они существуют лишь на стадии эксперимента.
Рынок коммерческих программных продуктов для компьютерного перевода предлагает пока лишь системы второго уровня.
Основой любой системы компьютерного перевода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.
Как правило, все эти системы снабжены большими словарями, а в некоторых из них имеется очень важная функция пополнения словарей новой лексикой.
Но даже самые современные системы компьютерного перевода допускают ошибки. Основными моментами процесса перевода является определение единицы перевода и правил преобразования единиц исходного текста в единицы текста перевода. Единицей перевода может быть слово, и несколько слов, и предложение, и несколько предложений, а для алгоритмической модели такое разнообразие неприемлемо. Правило преобразования едва ли можно чётко и полно сформулировать. Используя множество текстов, словарные соответствия и известные правила английской и русской грамматики и описывая их с помощью продукций и алгоритмов, можно построить общую алгоритмическую модель перевода с английского языка на русский и на её основе разработать систему компьютерного перевода, т.е. написать программы, реализующие логические правила соответствий.
Таким образом, алгоритмическая модель перевода и стандартная система компьютерного перевода обычно состоят из следующих блоков:
- блок морфологического анализа исходного текста;
- блок лексического анализа исходного текста;
- блок синтаксического анализа исходного текста;
- блок семантического анализа исходного текста;
- блок преобразования исходных синтаксических структур в выходные;
- блок синтаксического синтеза;
- блок семантического синтеза;
- блок морфологического синтеза (синтез текста перевода);
Возьмём для анализа перевод с английского языка на русский специального текста:
Electronic commerce over the Internet is growing at an almost exponencial rate. An April 1998 report of the United States Department of Commerce, entitled The Emerging Digital Economy describes the almost mind-boggling growth of electronic commerce, and of the Internet itself. Some of the more fantastic facts included in the report are:
By the end of 1997 more than 100 million people were using the Internet and some experts expect that 1 billion people will be connected to the Internet by 2005.
Traffic on the Internet is doubling every 100 days.
By 2002, Internet commerce between businesses will likely surpass $300 billion.
The number of names registered in the domain name system grew from 26,000 in July of 1993 to 1, 3 million in July of 1997.
Система компьютерного перевода перевела этот текст так:
Электронная торговля по Интернету возрастает в почти показательную функцию (норма) (разряд). Апрель 1998 сообщение Отдела Соединённых Штатов Торговли, имея право Появляющийся Цифровой Экономики (экономия), описывает почти ошеломляющий рост электронной торговли и Интернета непосредственно. Некоторые из более фантастических фактов, включённых в сообщение:
К концу 1997 больше чем 100 миллионов людей использовали Интернет и некоторые эксперты ожидают, что 1 миллиард людей будет связан с Интернетом 2005.
Движение в Интернете удваивается каждые 100 дней. 2002, торговля Интернета между бизнесами вероятно превзойдёт 300 миллиардов.
Номер (число) названий (имена), зарегистрированных в системе названия (имя) области рост от 26000 в июле от 1993 до 1,3 миллиона в июле 1997.
Начнем со словосочетаний. В первом предложении система не распознала словосочетание “ at an (almost) exponencial rate’’ – разорванное словосочетание, которое значит: “ экспоненциально’’ или ‘’ по экспоненте” , а также словосочетание ‘’ the United States Department of Commerce’’ – ‘’Министерство торговли США’’ .
Почему же словосочетания и их переводы не известны переводящей системе?
Происходит это потому, что заложить в словарь системы все словосочетания невозможно, а принцип выделения словосочетаний не известен, и мы выделяем их интуитивно на основе множества признаков, большинство из которых тоже не известно. О некоторых, однако, можно догадываться.
Перед тем как рассмотреть компьютерный перевод других словосочетаний, попробуем определиться с тем, что такое словосочетание и чем оно отличается от слов, просто стоящих рядом и связанных в предложения только грамматически. Есть много разных определений словосочетания, есть разные типы словосочетаний.
Словосочетание отличается от слов, просто стоящих рядом в тексте, тем, что его общие значения (и конечно, перевод) отличаются от значений отдельных его составляющих. Причем по форме оно от отдельных слов, как правило, не отличается.
Рассмотрим в качестве примера словосочетание ‘’ domain name system’’, которое система перевела по частям как ‘’система названия (имени) области’’, в то время как правильный эквивалент этого терминологического словосочетания ‘’ система доменов имён’’.
Дело в том, что это словосочетание, как большинство других, ничем не отличается от отдельных слов, стоящих рядом. Перевести правильно это словосочетание, также как и любое другое терминологическое словосочетание в специальном тексте, можно:
- если знать тематику текста (в нашем примере - Интернет) и на этом основании сделать вывод о возможном присутствии в нём специальных терминов и необходимости их специального перевода;
- если знать эти термины и терминологические словосочетания, и их перевод.
Компьютер ‘’не знает’’ ни того, ни другого.
Таким образом, компьютер словосочетания отделить от отдельных слов не может, а человек узнает и поэтому понимает и переводит в общем случае правильно.
Уже говорилось о том, как человек это делает на основании ранее усвоенных знаний. Если человек данное словосочетание не знает, то он его и не поймёт, и не переведёт. Но одно и то же словосочетание может иметь несколько значений. Как же человек определяет нужное значение? Тут вступает в силу один из элементов аналитического аппарата переводчика, присущий существующим системам компьютерного перевода в очень ограниченной мере. Это анализ контекста.
Но есть и стилистические ошибки.
Это, например, такие словосочетания в тексте перевода, как ‘’ имея право Появляющейся Цифровой Экономики ‘’; ‘’описывает почти ошеломляющий рост’’; ‘’некоторые из более фантастических фактов’’; ‘’больше чем 100 миллионов людей использовали Интернет’’; ‘’1 миллиард людей будет связан с Интернетом’’; ‘’движение в Интернете’’; ‘’торговля Интернета между бизнесами’’.
В данном контексте встречается два основных типа ошибок.
Во-первых, неправильный выбор переводного эквивалента (выделено курсивом). Хороший переводчик никогда бы не сказал ‘’использовали Интернет’’ или ‘’торговля между бизнесами’’.
Во-вторых, стилистические погрешности: ‘’описывает почти ошеломляющий рост’’; ‘’некоторые из более фантастических фактов’’ и т.п.
Программа, явно ‘’не знает’’ стилистики русского языка и не может отделить термин от нетермина (яркий пример последнего ‘’traffic’’ – ‘’обмен данными’’, а не ‘’движение’’). Разница между термином и нетемином, имеющая особое значение для перевода, состоит в том, что термин в пределах текстов, относящихся к данной научной или технической сфере, может иметь только прямое и, как правило, одно – единственное значение. Следовательно, термин нельзя переводить метафорически, вольно или описательно – он должен иметь один стандартный эквивалент.
Однако далеко не всегда мы чётко представляем себе основания для выбора эквивалента – определённых правил просто не существует и поэтому такую процедуру нельзя полностью алгоритмизовать. Чаще всего мы выбираем эквивалент интуитивно, и в этом существенное отличие переводчика-человека от компьютера.
Но самое интересное различие между переводчиком и программой состоит не в различной полноте их терминологического словаря, а в том, что, в отличие от компьютера, человек понимает, что его знания не достаточны, и воздерживается от абсурдного перевода.
Вышесказанное позволяет сделать следующие выводы:
- человек, в отличие от переводящей программы обладает способностью принимать правильные интуитивные решения. Он принимает их на основе ранее накопленных знаний и опыта. Иными словами, человек – самообучающаяся система, постоянно пополняющая свои знания и исправляющая допущенные ошибки.
- большая часть переводческого опыта, накопленного человеком, не поддаётся формализации и не может быть использована в переводящих программах.
- чтобы не уподобиться переводящей программе, переводчик должен всё время учиться, совершенствовать и систематизировать свои знания иностранного и родного языка.