
Полная версия
Информационные технологии и лингвистика XXI века
С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к машинному переводу. В Москве в 1974 в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В том же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода – АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.
Семантические системы 1970-х совершенно сознательно избегали использования синтаксической обработки, некоторые пытались вообще очистить от синтаксической информации свои системы. Синтаксис всегда рассматривался большинством лингвистов-теоретиков как основополагающая часть человеческого языка. Инженеры же увидели в синтаксисе полезный способ разрешения омонимии с относительно небольшим объемом необходимых знаний (по крайней мере, по сравнению с объемом знаний, требуемым для этой цели семантической обработкой). Теоретические лингвисты также выступали критически против всеобщего признания трансформационной (порождающей) грамматики Н. Хомского.
Результатом стали грамматики, оперирующие более детализированными синтаксическими характеристиками объектов информации (например, часть речи – существительное, лицо – третье, время – прошедшее, число – множественное и т. д.), а не одноатомные категории (глагол, существительное, прилагательное и т. д.). Эти грамматики могли дать гораздо более точный анализ предложения. С другой стороны, для детализированных характеристик необходимы гораздо более сложные методы сопоставления в поисковых алгоритмах. Отсюда такие грамматики получили название унификационных, так как сопоставление характеристик могло быть достигнуто посредством метода унификации.
Есть несколько грамматик, которые используют унификацию как главную операцию для комбинирования информации. Из них Грамматика Обобщенной Фразовой Структуры (GPSG – Generalized Phrase Structure Grammar), была одно время очень популярной, но, видимо, самым широко используемым формализмом стала Грамматика Лексических Функционалов (EFG – Eexical Functional Grammar).
В 80-е годы в большой мере формируется фундамент современного подхода к структуре машинного перевода. Благодаря росту производительности и развитию возможностей компьютеров, разработка систем машинного перевода стала реальностью. Разработка первых систем была основана на лингвистических знаниях. Но лингвистике не удалось покрыть широкий диапазон актуальных феноменов использования языка. Анализ производился для ограниченных случаев. В 80-е годы ученые инициировали разработки в области описания грамматик. Грамматики, основанные на формальных, правильно написанных текстах, не имели полной практической ценности. Только про 60 % грамматических правил, выработанных лингвистами, можно было сказать, что они работают на практике. В реальности, различные варианты в языке были слишком многочисленны.
В начале 90-х годов IBM выпустила систему статистического машинного перевода (SMT-statistical machine translation). Данная система обнаруживала ряд английских и французских выражений, которые не могли бы быть распознаны вручную, посредством «чистой» методологии машинной трансляции. Базовыми характеристиками данной системы являлись большой объем памяти и высокая производительность компьютеров, большой объем качественных пар слов для перевода (обучающие данные).
Основным вопросом, вставшим перед компьютерной лингвистикой с 90-х годов, когда основным направлением стала статистическая обработка текстов, оказалась проблема получения достаточно большого набора реальных лингвистических данных, чтобы произвести внятный анализ или автоматически построить грамматику. Во многих случаях у исследователей недостает данных для анализа лингвистических феноменов в результате разбросанного характера данных. Например, когда они пытаются определить вероятность для каждой из пар последовательно идущих терминов, они не могут найти лингвистических данных с какими-то из анализируемых пар, хотя сочетания подобного рода являются правильными с точки зрения языка. Один из подходов состоит в улучшении точности приближения путем статистической обработки небольших рабочих образцов.
В реальности, исследователям приходится работать с низкокачественными данными в сопоставляемых для перевода парах. Когда данные не могут быть сопоставлены, используются двуязыковые корпуса в той же предметной области. Как минимум для решения проблемы требуются словари для базовых лексиконов и быстрые компьютеры с большим объемом памяти. При этом парадигмы машинного обучения выглядят на сегодняшний день мало подходящими для целей автоматической обработки текстов.
На сегодняшний день максимальную долю российского рынка систем машинного перевода составляют продукты компаний PROMT и ABBYY (Lingvo). В основу фундамента технологии перевода PROMT были заложены формализм расширенных сетей переходов (ATN – Augmented Transition Network) и использование двух «переводческих технологий» в одном продукте – технологии машинного перевода (Machine Translation) и технологии Translation Memory. Эффект от взаимного применения двух технологий позволяет обеспечить практически 100 %-ное качество перевода при работе с повторяющимися текстами.
Программы, разработанные на основе технологии машинного перевода осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией машинного перевода можно быстро получить черновой вариант перевода, отражающий общий смысл текста.
Во второй лекции нашей работы, посвященной описанию разнообразных программ компьютерного перевода, технология Translation Memory была подробно описана. Повторимся, что память переводов (ТМ) использует базу данных, где хранятся выполненные профессионалом переводы в виде сегментов текста оригинал-перевод. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Память переводов работает по принципу накопления: в процессе перевода в базе сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в базе. В результате необходимость в повторном переводе одного и того же предложения отпадает.
Современная компьютерная лингвистика является междисциплинарной наукой. Человека окружает очень большое количество цифровой информации; существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и т. д. И очень важно уметь обращаться с этой информацией эффективно – главное не только быстрота обработки информации, но и легкость, с которой пользователь способен извлекать необходимые ему данные и создавать из них цельную картину.
Компьютерная лингвистика как особая прикладная дисциплина выделяется, прежде всего, по инструменту – т. е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.
Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».
Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.
Одна из ключевых задач современной компьютерной лингвистики – это совершенствование структуры семантических сетей, когда поиск происходит не просто по совпадению слов, а по смыслу. Ведь все сайты, так или иначе, размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго[19].
С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Например, существуют механизмы генерации текстов на темы, на которые человеку писать довольно-таки скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказ подобных текстов стоит немалых денежных затрат, но написаны компьютерные тексты на данные темы связным человеческим языком.
В современной России одним из наиболее успешных проектов, реализованных в области компьютерной лингвистике, является Национальный корпус русского языка (http://ruscorpora.ru/). Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. В современном англоязычном мире большим достижением компьютерной лингвистики является концептуальная сеть Ргатепе![20], где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» – кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса.
В качестве послесловия необходимо отметить, что пока не известно, какие возможности даст человечеству надвигающаяся новая компьютерная революция. Однако можно надеяться, что компьютерная лингвистика перейдет на совершенно новую технологическую базу, основа которой закладывается в наше время, в эпоху научных разработок в области искусственного интеллекта.
Вопросы для самоконтроля
1. Каковы основные задачи, решаемые современной компьютерной лингвистикой?
2. Что такое искусственный интеллект?
3. Перечислить основные этапы становления и развития компьютерной лингвистики.
4. Каково приоритетное направление развития современной компьютерной лингвистике?
5. Что такое Национальный корпус русского языка и Framenet?
Задания для самостоятельного исследования
Подготовить доклад по одной из ниже перечисленных тем.
1. Компьютерная лингвистика как междисциплинарное научное направление.
2. Когнитивный инструментарий компьютерной лингвистики. «Фреймы», «сценарии» и «планы».
3. Компьютерное обеспечение представления знаний.
4. Естественные и искусственные языки. Виды искусственных языков.
5. Автоматизированный анализ: распознавание и синтез устной и письменной речи.
6. Морфологический анализ, проблемы семантического анализа, синтаксический анализ.
7. Лингвистические базы данных: модели и типы данных. Создания общих искусственных языков для представления информации.
8. Компьютерная лексикография как одно из направлений прикладной лингвистики. Словарные процессоры.
9. Основные понятия структуры словаря: словник, словарная статья, грамматические, стилистические пометы; иллюстративный материал.
10. Типология электронных словарей.
11. Тезаурусы и терминологические словари.
12. Компьютерные технологии составления и эксплуатации словарей.
13. Электронные учебники, словари, учебно-методические материалы.
14. Мультимедиа в помощь филологу.
15. Использование инновационных технологий при организации научных исследований.
Рекомендованная литература
1. Кравченко, А.В. От языкового мифа к биологической реальности: переосмысляя познавательные установки языкознания/ А.В. Кравченко. – Москва: Языки славянских культур (ЯСК): Рукописные памятники Древней Руси, 2013. – 387 с.
2. Болховитянов, А.В. Алгоритмы морфологического анализа компьютерной лингвистики: учеб, пособие для студентов вузов, обучающихся по направлению 035000.62 – Издательское дело / А.В. Болховитянов, А.М. Чеповский; М-во образования и науки Российской Федерации, Федеральное гос. бюджетное образовательное учреждение высш. проф. образования Московский гос. ун-т печати им. Ивана Федорова. – Москва: МГУП, 2013.– 198 с.
3. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учебное пособие для студентов высших учебных заведений, обучающихся по направлению 231300 – »Прикладная математика»/ [Большакова Е. И. и др.]; М-во образования и науки Российской Федерации, Московский гос. ин-т электроники и математики Москва: Московский гос. ин-т электроники и математики, 2011. – 272 с.
4. Зубов А.Б. Информационные технологии в лингвистике/ А.Б. Зубов, И.И. Зубова. М.: «Академия», – 2004. – 208 с.
5. Кузнецов АЛ. Образовательные электронные издания и ресурсы: методическое пособие / С.Г. Григорье, В.В. Гриншкун. – М.: Дрофа, 2009. – 156 с.
6. Потапова Р.К. Речь: коммуникация, информация, кибернетика: Учеб, пособие для студентов вузов, обучающихся по специальностям «Авто-матизир. системы обраб. информ. и упр.», «Лингвистика» / Р.К. Потапова. – 3. изд., стер. – М.: УРСС, 2003. – 564 с.
7. Соснина Е.П. Введение в прикладную лингвистику/Е.П. Соснина. – Ульяновск, 2010. [Электронный ресурс]. – URL:http://www.twirpx.com/file/736011/ – электронный учебник.
Глава 5
ИНТЕРНЕТ-ЛИНГВИСТИКА КАК НОВОЕ НАУЧНОЕ НАПРАВЛЕНИЕ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ XXI СТОЛЕТИЯ
Краткое описание: Определение понятия «Интернет-лингвистика», становление Интернет-лингвистики как нового научного направления в лингвистическом знании, социолингвистическая, образовательная, стилистическая и практическая концепции изучения Интернет-лингвистики.

The Web is an eclectic medium, and this is seen also in its multilinguistic inclusiveness. Not only does it offer a home to all linguistic styles within a language; it offers a home to all languages – once their communities have a functioning computer technology.
David Crystal (a British linguist, academic and author)Web screens may blossom with movies and be garnished with sound tracks but, for the moment, type is the primary vehicle for information and persuasion. Its appearance on screen is more crucial than ever. Intense competition for the user’s attention means that words must attract, inform (and maybe seduce) as quickly as possible. Flawless delivery of the message to the screen is the goal. The road to success is very broad, but the surface rather uneven.
Roger Bring (author, graphic designer and educator)Интернет-лингвистика – подраздел лингвистики, который был сформулирован Дэвидом Кристалом. Этот подраздел науки занимается изучением новых форм употребления и использования языка, которые возникли под влиянием активного развития Интернет-пространства и иных «новых» средств передачи информации, таких как текстовые сообщения. Начиная с момента появления науки, изучающей мотивацию человеческого поведения при работе с компьютерными системами (человеко-компьютерное взаимодействие, human-computer interaction, HCI), которая, в свою очередь, привела к возникновению связи путем использования компьютера (computer-mediated communication, CMC) или Интернета (Internet-mediated communication, IMC), эксперты признали, что лингвистика играет ключевую роль в формировании этой науки, особенно в отношении восприятия web-интерфейса. Изучение развивающегося языка Интернета позволяет обеспечить дальнейшее развитие онлайн-пространства и может помочь не только лингвистам, но и самим пользователям.
На сегодняшний день существуют четыре основные концепции Интернет-лингвистики: социолингвистическая, образовательная, стилистическая и практическая. Все эти концепции взаимосвязаны и имеют влияние друг на друга.
Социолингвистическая концепция
Эта концепция связана с изучением того, как общество оценивает влияние Интернета на изменение и развитие языков. Появление Интернета колоссально изменило общение между людьми и создало новые платформы для коммуникации (такие как текстовые сообщения, чаты, электронная почта, использование смайлов, и т. д.)
Развитие новых платформ для общения вызвало обеспокоенность в отношении использования языка. Согласно Кристалу (2005) эта озабоченность не только не беспочвенна, но и уже не раз наблюдалась в истории – она всплывает каждый раз, когда технический прорыв влияет на язык. Примером подобных открытий могут служить появление печати в 15 веке, изобретение телефона в 19 веке или распространение радиовещания и телевещания в 20 веке.
Влияние Интернета можно рассматривать на уровне частного и профессионального пользования.
На личном уровне компьютерное общение осуществляется посредством текстовых сообщений или мобильных электронных писем, что привело к значительному расширению возможностей мгновенного общения. Примеры этого могут связаны с использованием Iphone и BlackBerry.
Сейчас во многих учебных заведениях и преподавателям, и студентам предоставляются личные адреса электронной почты и аккаунты в специально созданных для учебных целей социальных сетях для ускорения обмена материалами, данными, а также для более быстрого доступа ко всей необходимой информации. Дискуссии в классе часто переходят в онлайн-пространство путем создания специализированных форумов. Например, студенты Наньянского технологического университета в образовательных целях объединяются на специализированном учебном портале edveNTUre, на котором они участвуют в дискуссиях, слушают и смотрят материалы, которые специально были подготовлены для них преподавателями, и выполняют онлайн-работы. Компания Apple в 2008 году запустила платформу iTunes U, которая представляет собой базу для размещения аудио- и видеокурсов от преподавателей крупнейших учебных заведений всего мира, которые пользователи этого ресурса могут смотреть и слушать абсолютно бесплатно. В числе партнеров iTunes U уже более 600 университетов из 18 стран, включая Оксфорд, Кэмбридж и Йельский Университет.
Подобная форма предоставления информации позволяет преподавателям находить новые способы общения со студенческой аудиторией, что дает возможность не только расширить аудиторию, которой адресуются материалы, но и сделать эти материалы более доступными. В Нью-Йоркском университете студенты привыкли к тому, что многие внештатные преподаватели читают им лекции по Skype, служащие библиотеки активно используют мгновенные сообщения для предоставления необходимой информации, а все услуги самой библиотеки доступны онлайн. Дальнейшее развитие подобных платформ общения с использованием компьютерных систем и их популярностью среди как преподавателей, так и студентов приведет к изменению языковых форм.
На профессиональном уровне социолингвистическая концепция проявляется в том, что практически все компании предоставляют своим сотрудникам доступ в Интернет, а также дают возможность использовать все корпоративные ресурсы и электронную почту. Подобная практика упрощает как внутреннее взаимодействие сотрудников компании, так и внешнее (с другими компаниями). На современном этапе многие создатели программного обеспечения для смартфонов стараются активно выйти на корпоративный рынок посредством создания возможностей для интеграции корпоративных ресурсов в телефон каждого сотрудника (например, компания Apple через ActiveSync позволяет сотрудникам связываться с рабочей электронной почтой, получать доступ к календарю и иным необходимым рабочим ресурсам удаленно, не находясь в офисе).
Дэвид Кристал считает, что создание новых средств связи с использованием компьютерных систем не приведет к деградации языка, а, наоборот, покажет насколько разнообразным может быть общение в Интернете.
Образовательная концепция
С образовательной точки зрения Интернет-лингвистика занимается изучением влияния Интернета на использование формального языка, в особенности на академический английский, который, в свою очередь, оказывает влияние на лингводидактику. Быстрое развитие Интернета повлекло за собой появление новых языковых особенностей, характерных только для онлайн-пространства. Они включают в себя возрастание использования неформального письменного языка, противоречивость в стиле написания и стилистике, использование новых аббревиатур в Интернет-чатах и мгновенных текстовых сообщениях (СМС), в которых технические ограничения на количество слов привели к появлению новых аббревиатур. Подобные акронимы в своем большинстве возникают по практическим соображениям – не только из-за технических ограничений, но и сокращения времени и количества приложенных усилий на общение через эти средства коммуникации. Примеры подобных сокращений – ЛОЛ (от англ. Laughing out loud) или ОМГ (от англ. Oh my god).
Образовательная перспектива была во многом создана при исследовании влияния Интернета на обучение использованию языка. Это очень важный аспект, так как он влияет на обучение нынешних и будущих поколений студентов правильному и своевременному использованию неформального языка, который возникает в процессе использования Интернета. Эта обеспокоенность связана с использованием неформального языка в учебе или на официальных событиях. Кроме того, возникает проблема, связанная с более частым использованием студентами в институтских работах аббревиатур и сокращений, характерных для онлайн-пространства.