Поскольку дальнейшее обучение автор мечтает связать с лингвистикой, то выбранная тема исследования не случайна. Проблемные вопросы, поставленные автором:
Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли автору знаний, чтобы использовать и дополнять существующие компьютерные словари? Ответы на эти вопросы автор стремилась представить в своей работе. Отчет по теме - в прикрепленном файле, продукт проектной деятельности - на школьном портале
Вложение | Размер |
---|---|
novoselova_togliatty_39.doc | 578 КБ |
Открытая
Международная
научно-исследовательская
конференция
старшеклассников и студентов
«Образование. Наука. Профессия»
Секция «Лингвистика иноязычная»
«Компьютерная лингвистика»
Выполнила Новосёлова Ирина
МОУ гимназия № 39 «Классическая»
10 «Б» класс
Научные руководители:
Чигринёва Татьяна Дмитриевна,
учитель английского языка высшей категории
Осипова Светлана Леонидовна,
учитель информатики высшей категории
г. Отрадный
2011
СОДЕРЖАНИЕ
Область исследования – информатика и английский язык.
Предметом исследования в настоящей работе является компьютерная лингвистика.
1 Компьютерная лингвистика - история, направления развития (по материалам печатных и электронных информационных источников)
2 Направления компьютерной лингвистики
Формы организации взаимодействия ЭВМ и человека при машинном переводе:
2.2.1 Lingvo Tutor и его наполнение
2.2.2 Англоязычные слова в ИКТ
Язык - самое древнее и самое загадочное приобретение человека, а лингвистика, наука о языке, древнейшая из наук. Компьютерная лингвистика занимается проблемой компьютерного понимания естественного языка.
Человек придумал электронные устройства, облегчающие арифметический счет. Вскоре обнаружилось, что эти машины можно легко приспособить для решения многих творческих задач, связанных с человеческим знанием.
Накапливались факты, писались специальные компьютерные программы, изобретались искусственные языки обработки знаний. Этот процесс привел к становлению новой науки, названной искусственный интеллект.
В наше время многие теоретические исследования по искусственному интеллекту получили практическое применение. Роботы осуществляют точные механические операции, распознают образы, ведут поиск в сложных условиях, пишут музыку, сочиняют стихи.
В классификации наук США работы по искусственному интеллекту из разряда теоретических переведены в разряд прикладных наук. Одна из главных проблем искусственного интеллекта - компьютерное понимание естественного языка. Эта проблема относится области компьютерной лингвистики.
Компьютерная лингвистика; занимается поиском алгоритмов реализации взаимодействия человека с компьютером на естественном человеческом языке [1].
Поскольку дальнейшее обучение я хотела бы связать с лингвистикой, то выбранная тема исследования не случайна. Мне интересно узнать теорию компьютерной лингвистики, технологию машинного перевода и ответить на проблемные вопросы:
Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли мне знаний, чтобы использовать и дополнять существующие компьютерные словари? Чтобы ответить на эти вопросы я поставила перед собой цель
Цель:
Изучение существующих систем машинных переводов и разработка алгоритма работы с электронным словарем Lingvo Tutor.
Задачи:
Лингви́стика (языкозна́ние, языкове́дение; от лат. lingua — язык) — наука, изучающая языки. Это наука о естественном человеческом языке вообще и о всех языках мира как индивидуальных его представителях. В широком смысле является частью семиотики как науки о знаках [2]/
Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.
Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.
КЛ - направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.
Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели).
Компьютерная лингвистика возникает как одно из направлений искусственного интеллекта в 50-х годах 20-го века и основные этапы его развития во многом соотносятся с эволюцией подходов и методов в искусственном интеллекте в целом [5].
Толчком к развитию искусственного интеллекта и компьютерной лингвистики в частности послужило создание первых ЭВМ в 40-х годах, и, в частности, успешное использование их во время второй мировой войны. Первый этап фундаментального осмысления задач, стоящих перед разработчиками искусственного интеллекта, связывают с классической статьей Тьюринга, (Alan Turing 1950), которая начинается с рассмотрения философски значимого вопроса “может ли машина мыслить” ('Can machines think?'). Тьюринг предположил, что о создании искусственного интеллекта можно будет говорить в том случае, если воображаемый компьютер сможет успешно пройти следующий тест: человек, находящийся в другой комнате и задающий вопросы не может отличить полученные ответы другого человека от ответов машины. Этот тест получил название теста Тьюринга и был подвергнут широкому обсуждению. Важно отметить, что в основе теста лежат проблемы, относящиеся к области автоматической обработки естественного языка и моделирования языкового взаимодействия.
Итак, компьютерная лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу.
В конце 80-х гг. связи с развитием сети Интернет и Всемирной паутины объем доступных в электронном виде текстов возрос в разы. Это привело к качественному скачку в технологиях информационного поиска. Возникли совершенно новые задачи и технологии обработки текстов на естественном языке. Необходимость быстрой обработки огромного потока неструктурированных данных привела к тому, что основной интерес в сфере автоматической обработки естественного языка переместился на разработку статистических методов.
Современные поисковые машины в условиях жесткой конкуренции вынуждены предлагать пользователю все новые сервисы интеллектуального анализа текстов: автоматический анализ новостей: автоматическое объединение текстов, поступающих от новостных агентств в “новостные” сюжеты, определение “тональности” публикации, снабжение текста переводом на язык пользователя и др. Таким образом, возникшие за последние несколько лет огромные электронные текстовые ресурсы из самых различных областей знаний и практик, поставили традиционную задачу лингвистики и филологии - анализ текста - на совершенно новый уровень: Для того, чтобы современный специалист мог эффективно справляться с такими большими информационными потоками, необходима их предварительная содержательная обработка. Оказалось, что большинство современных информационных технологий немыслимы без лингвистического компонента, обеспечивающего анализ текста на всех языковых уровнях:
Маши́нный перево́д — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем [4].
История машинного перевода
Мысль использовать ЭВМ для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.
К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:
Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.
Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.
В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).
Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.
Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бродящих по Интернету шуток. Из пространных примеров наиболее известен текст «Гуртовщики Мыши» (перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей); из кратких — фраза «My cat has given birth to four kittens, two yellow, one white and one black», которую переводчик компании ПРОМТ превращает в «Моя кошка родила четырёх котят, два желтых цвета, одного белого и одного афроамериканца». Главной причиной того, почему программа перевела именно так, было то, что после слова black нужно было добавить kitten, тогда программа переведёт правильно: «Моя кошка родила четырёх котят: двух жёлтых, одного белого и одного чёрного котёнка».
Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит» и т. п.
Электронный словарь — словарь в компьютере или другом электронном устройстве.
Позволяет быстро найти нужное слово, часто с учетом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).
Внутренне устроен как база данных со словарными статьями.
Электронные словари не стоит путать с компьютерными словарями, предназначенными не для пользователей, а для компьютерных программ, работающих с текстами на естественных языках.
Lingvo Tutor – достаточно популярная функция электронного словаря, которая помагает тем, кто начинает изучать английский язык или тем, кто уже свободно говорит, но ставит цель освоить новый блок слов (возможно, терминов, профессиональных высказываний и оборотов). Если Вы проявите желание выучить 30 -50 новых английских слов, программа самостоятельно может сгенерировать урок, в котором по очереди, в случайном порядке будут предложены слова для перевода. Выполнив задания, Вы получите звуковые подтверждения правильности проделанного[6].
Вот какие я вижу плюсы этой технологии:
В базе есть около 200 словарей, поэтому выбор есть. Совсем недавно словари к Lingvo Tutor начали выходит и со списками слов в Word такого формата: |
Теперь вы можете скачать такие списки слов в формате word ко всем словарям. На сайте же, пока не все словари идут в WORD формате.
Чем полезный список слов в WORD:
Однако, думаю, не всех и каждого устроит то, что Lingvo без Вашего участия очертила круг новых слов. Поэтому я кратко, в формате «картинка – комментарий», пошагово излагаю, каким образом возможно изучать Вами же изготовленные карточки…
http://tefl.com.ua/%D1%81%D1%82%D0%B0%D1%82%D1%8C%D0%B8/
Смотрите на сайте
Одна из задач – провести эксперимент, который заключен в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский.
Были протестированы следующие сайты:
Для чистоты эксперимента, я выбирала предложения с разной степенью сложности стилистического перевода. Фразы для ввода следующие:
1. A new report says today’s teenagers are more selfish than they were 20 years ago
(Новый доклад говорит, что современные подростки более эгоистичны, чем они были 20 лет назад)
2. She believes video games and the Internet are the biggest reasons for this increased selfishness.
(Она верит, что видео игры и Интернет являются наиболее значимыми причинами для этой возрастающей эгоистичности)
3. They want to be better than others
(Они хотят быть лучше, чем остальные)
4. She found the big increase started from the year 2000, which is when violent video games became really popular.
(Она нашла большой рост, начавшийся с 2000 года, когда жестокие видео игры стали действительно популярны)
Переведя эти предложения на сайтах онлайн-переводчиков, я получила следующие результаты:
Вывод:
Проведя эксперимент со сравнением возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский я выявила, что практически во всех онлайн-переводчиках присутствуют недостатки. Ни один из проверенных мною словарей не смог точно и стилистически верно перевести четыре фразы (исключая предложение №3) с английского на русский, и из полученных результатов видно, что такие словари более подходят для перевода отдельных слов, словосочетаний, простых предложений, где нет никаких особенных выразительных средств и сложной грамматики.
К сожалению, пока не создан лингвистический словарь-переводчик, который бы был способен литературно переводить тексты, как с английского на русский, так и с русского на английский. Для этого до сих пор используются только литературные способности человека, его воображение, красноречие и знание особенностей иностранных языков.
Трудно представить современного человека, изучающего иностранные языки, который не использует электронные словари и онлайн-переводчики, распространенные в сети Интернет.
Размышляя над тем, на какой факультет поступить в университете, после окончания школы, я узнала, что существуют факультет компьютерной лингвистики.
Я проявила интерес, так как я не равнодушна ко всему, что связанно с иностранными языками, и у меня возникло желание исследовать компьютерную лингвистику.
В повседневной жизни люди часто используют машинный перевод текста – для работы ли, учёбы, а иногда просто ради интереса. Но так ли совершенен машинный перевод?
В своей работе я постаралась узнать, как далеко зашёл технический прогресс и какими возможностями обладают современные лингвистические словари.
В данном проекте я решила описать один из наиболее известных компьютерных лингвистических словарей – Lingvo Tutor, с помощью которого, человек, даже имеющий минимальные познания в иностранном языке, способен расширить свой кругозор и пополнить свой словарный запас.
Так же, был проведён эксперимент, связанный с переводом различных текстов на сайтах онлайн-переводчиков, цель которого заключалась в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский.
Надеюсь, что мой проект позволит многим узнать для себя что-то новое и воспользоваться моими исследованиями для успешного развития в изучении иностранных языков.
Солдатская шинель
Волшебные звуки ноктюрна
Зимняя сказка
Астрономы получили первое изображение черной дыры
Прекрасное далёко