5 ВВЕДЕНИЕ
Вынесение названия науки в тему диссертации не является обычным приемом и в данном случае объясняется лишь тем, что данная наука только еще формируется в рамках языкознания. Однако нам представляется, что уже есть основания говорить о такой науке или, по крайней мере, важном направлении исследований в типологическом и сопоставительном языкознании.
Новые информационные технологии приводят к тому, что появилась возможность изучать язык не только по традиционным "хранилищам" языковых данных, таким как словари, художественные произведения, сочинения классиков, письменные тексты как представительные выборки из генеральной совокупности, но и вводить в компьютер и обрабатывать большие массивы текстов - корпусы текстов. Мы имеем в этом отношении качественный скачок, который особенно часто отмечается в лексикологии и лексикографии: так, если раньше составление словарей, что является чрезвычайно важной теоретической и практической работой, определяющей, по существу, состав и структуру всех лингвистических исследований и применения языкознания к практическим задачам, таким важным, например, как обучение языку и речи, то теперь эта работа намного облегчается. Резко расширились возможности наблюдения и изучения речи, как устной, так и письменной. Огромный языковый материал, который в состоянии обработать современные компьютеры, дает возможность проверить выдвигаемые теоретические модели лингвистических явлений и разрабатывать новые. Многие традиционные проблемы языкознания в настоящее время решаются по-новому и их решение традиционных проблем достигается гораздо легче и доказательнее.
Язык, особенно его лексика, постоянно развивается. Слова приобретают новые значения, старые значения исчезают. Кроме того, появляются и
6
совершенно новые слова. В подавляющем большинстве случаев новые слова - это термины, отражающие появляющиеся новые понятия науки, техники, быта, социальных отношений, политики и экономики. Количество терминов в каждом языке исчисляется миллионами, включая словосочетания. Современная языковая ситуация, характеризующаяся информатизацией общества, и, так называемым, "информационным взрывом", резким расширением каналов языковых коммуникаций, заставляет обращать особое внимание на расширение лексических значений и на роль терминов и терминологии в современных языках.
Слово и проблемы его анализа - основная тема современной лингвистики. Термин, прежде всего, - слово. Являясь главным носителем семантической информации, слово выступает основным элементом высказывания. Современные теоретические и прикладные исследования, от логических до морфологических, так или иначе исходят от формы и содержания именно слова, поскольку никакая другая языковая единица не обладает таким единством формы и содержания, не играет в высказывании такой важной конструирующей роли, как слово. Инструментом исследования может и должен быть не только словарь как регистратор значения слова в его парадигматике и синтагматике, но и конкорданс, составленный на основе представительной выборки текстов, как регистратор синтагматики и парадигматики слова уже в речи. Несмотря на то, что изменения в значениях только одного слова уже представляют собой самостоятельную проблему, можно представить совокупность слов определенной предметной области в виде некоторой системы, значения слов - составляющих которой определенным образом связаны.
Современные методы исследования дают новые инструменты, не известные лингвистам прошлого и позволяющие проверить гипотетические построения как методом обратной связи, так и точными формальными и количественными методами.
Корпусная лингвистика основана на использовании корпуса, то есть большого объема живого языкового материала, который можно извлечь из различных источников и ввести в компьютер. Она исследует как речь, так и язык в новом ракурсе, открывая огромный исследовательский словарь.
Все это требует особого осмысления. В данной диссертации мы пытаемся сформулировать предмет, объект и методы современной корпусной лингвистики.
Данное исследование посвящено анализу синхронного состояния лексических единиц в рамках корпусной лингвистики.
В настоящее время большое значение приобретает корпусная лингвистика, в рамках которой изучаются вопросы распределения лингвистических явлений в разных языках и объективным путем получаются новые лингвистические данные. Преимущества этого направления в том, что оно избегает субъективизма, неизбежного в традиционном языкознании, и опирается на объективные сведения.
Некоторые положения корпусной лингвистики были известны достаточно давно, например, дистрибутивная методика, составление конкордансов и пр. Однако как цельное лингвистическое направление она сформировалась сравнительно недавно.
Объектом исследования в данной работе выступают слова с широкой понятийной основой, которые, являясь терминами, одновременно входят в пласт общеупотребительной лексики.
Актуальность темы исследования определяется тем, что в современном языковом общении большую роль играет терминология, которая функционирует как в общеупотребительном пласте, так и в виде достаточно узких специальных обозначений, вошедших тем не менее в язык («компьютер», «файл», «сервер» и т.д.). В рамках корпусной лингвистики появляется возможность по-новому описать такую важную единицу современной лексики, как термин. Поскольку современные базы знаний
8
политематичны, постольку в них велика роль контекстологического словаря, который можно эффективно исследовать, используя принципы и методы корпусной лингвистики.
Основная цель работы - выявить особенности функционирования слов, выбранных для анализа в географически, социально и культурно различных условиях.
Поставленная цель определила и ряд конкретных задач: •определить распространение многозначных глаголов и существительных на материале английского языка в разных условиях его бытования (Англия, Шри-Ланка, Таиланд);
• определить и выбрать достаточный массив (корпус) исходных текстов для обеспечения репрезентативности материала и надежности полученных результатов;
• опираясь на контексты, представленные в конкордансе, установить значения лексических единиц, отобранных для анализа, в конкретных контекстуальных условиях; выявить особенности реализации этих значений при их сочетании с детерминантами;
• провести сравнительный анализ словарных значений слов, вовлеченных в исследование, и тех значений, которые они приобретают в контексте;
• при опоре на дистрибутивный и статистический методы выявить коэффициент корреляции между несколькими парами признаков: география газеты, тематика (рубрикация газетного материала), осложнение детерминантами и т.д.;
• с учетом синхронического вектора слова (по аналогии с диахроническим вектором, введенным в лингвистический обиход М. В. Марчук), выявить сходства и различия в семантике глаголов и существительных в словаре и в корпусе.
Научная новизна исследования заключается в том, что впервые с опорой на корпусную лингвистику исследуется семантика многозначных глаголов и существительных и выявляются особенности их функционирования, предопределяемые как спецификой вариантов английского языка, используемых в Англии, Шри-Ланке, Таиланде, так и особенностями текстов публицистического стиля; освещается роль и структура контекстологического словаря, разработанного и изданного Ю. Н. Марчуком [1976] как основы для многоязычных терминологических баз данных. Впервые вводится понятие синхронического вектора, предопределяющего развитие семантической структуры слов, используемых в качестве терминов. При помощи коэффициента корреляции определяется зависимость между степенями изменений значений слов, принадлежащих к тому или иному лексико-грамматическому классу.
Основные положения диссертации, выносимые на защиту:
1. Корпусная лингвистика открывает новые методы и исследовательские приемы для более полного описания лексического слоя современного языка и при этом дает возможность получить новые результаты.
2. Исследование корпуса текстов способствует выявлению широкого спектра семантики многозначных слов в широком контексте, способствует идентификации слова в конкретном акте коммуникации.
3. Корпус текста представляет собой основной массив не только для построения контекстологического словаря, но и разграничения различных вариантов языка.
Основные методы, применяемые в настоящей работе, определяются задачами исследования. В связи с этим главным образом используются дистрибутивный и статистический методы. Первый - использован при контекстологическом анализе для выявления спектра реализации значений глаголов и существительных. При опоре же на категориальный аппарат
10
статистического метода нами были выявлены указанные выше корреляции нескольких пар признаков.
Материалом исследования послужили англоязычные газеты: «THE TIMES» (Лондон), «THE ISLAND» (Шри-Ланка) и «THE NATION» (Бангкок). При этом для выявления указанных корреляций тематика газетных статей была представлена максимально разнообразно: культура, образование, политика, экономика.
Исследованию в работе подвергнут исходный корпус в 10 тысяч словоупотреблений по каждой из газет. Географическая отдаленность стран, в которых издаются указанные газеты, позволяет, на наш взгляд, наиболее полно выявить особенности реализации значений выбранного списка слов в таком многогранном корпусе, как газета.
Теоретическая значимость исследования заключается в уточнении и расширении некоторых важных теоретических вопросов, связанных с определением слов с широкой понятийной основой, возможностей привлечения как теоретических, так и практических ресурсов корпусной лингвистики вообще, корпуса и конкорданса, в частности, для решения ряда проблем, лежащих в сфере синхронического вектора слова.
Практическая значимость работы определяется возможностью использования результатов проведенного исследования в учебном процессе, в лексикографической практике, в частности, при составлении двуязычных и многоязычных словарей, в теории и практике перевода, при чтении лекций по корпусной лингвистике и обработке текстов.
Апробация работы. Основные положения диссертации обсуждались на различных Международных и региональных научных конференциях: Международной научно-практической конференции "Человек. Язык. Искусство" (памяти проф. Н. В. Черемисиной) (Москва, 4-6 ноября 2002 г.); XXX научной конференции студентов и молодых ученых Южного Федерального округа (декабрь 2002 г.- март 2003 г.); Международной
11
научной конференции, посвященной 30-летию факультета иностранных языков Адыгейского государственного университета "Язык. Этнос. Сознание" (Майкоп, 24 - 25 апреля 2003 г.); 250-летию МГУ X Международной Юбилейной научной конференции студентов, аспирантов и молодых ученых к "Ломоносов-2003" (Москва, 15-18 апреля 2003 г.). Результаты данного исследования были также апробированы на научно-практической конференции профессорско-преподавательского состава Дагестанского государственного университета (Махачкала, 24 - 25 апреля 2003 г.). Основные положения работы изложены в 13 публикациях.
Структура и объем диссертации. Содержание диссертации изложено на 132 страницах и состоит из введения, четырех глав, заключения и библиографии. Текст диссертации иллюстрируется 5 рисунками и содержит 3 таблицы. В конце диссертации дано приложение: образцы статей из газет, на материале которых проводилось исследование.
В первой главе исследуются такие проблемы, как аспекты речевой деятельности, моделирование с помощью распределений и др. Во второй главе рассмотрены роль и функции контекстологического словаря в идентификации многозначных терминов. Третья глава посвящена исследованию проблемы термина и контекста. В четвертой главе рассматриваются вопросы контекстного разрешения лексической многозначности. Каждая глава сопровождается краткими выводами.
12
ГЛАВА 1. ИСХОДНЫЙ КОРПУС ТЕКСТОВ И МЕТОДЫ ЕГО ОБРАБОТКИ
1.1. Значение исходного корпуса текстов для решения проблем языкознания
1.1.1. Дистрибутивная методика в лингвистике
Ряд лингвистических проблем был решен благодаря идеям машинного перевода. Ю. Н. Марчук в докладе на III научной конференции «Теория перевода и практика подготовки переводчиков» [Марчук 1999] оценивает уроки начального периода становления и развития работ по машинному переводу, базируясь на книге У. Дж. Хатчинса [Hutchins 2000]. Взгляд на язык как на код повлек за собой применение методики статистического исследования текстов на предмет выявления в них определенных лингвистических закономерностей. По мнению Г. Э. Мирама [Miram 1998], именно в это время были сформулированы основные положения дистрибутивной теории, главным принципом которой было изучение текстового поведения языковых элементов для их последующей всесторонней характеристики. Дистрибутивная методика, объединенная на основе статистических приемов, в большой степени стимулировала становление теоретического языкознания, в котором с этого времени стало применяться моделирование, понимаемое как построение моделей, объясняющих действие языковых законов или проверяющих работу и эффективность воспроизводящих языковые действия кибернетических устройств [Пиотровский 1979].
Такая методика предполагает исследование достаточно больших массивов исходных текстов для получения достоверных данных. Как утверждает Г. Э. Мирам, изучение дистрибуции позволяет: а) определить
13
модель значения, т.е. состав основных компонентов, которые образуют в своей сумме значение данной лексической единицы; б) установить модель сочетаемости данной лексической единицы с другими лексическими единицами; в) дать определение формальной структуры лексической единицы. В свое время дистрибутивно-статистический подход сыграл большую роль не только в исследованиях по машинному переводу, но и в теоретической лингвистике, позволяя строить дистрибутивно-статистические модели языковых стилей. На уровне содержательного понимания дистрибуция языкового элемента есть его встречаемость в определенных контекстах, совокупность соседних с ним языковых элементов и текстовых единиц. При этом глубину контекста можно задать, исходя из возможностей исследования.
1.1.2. Квантитативная лингвистика: противопоставление языка и речи
Статистические закономерности достаточно важны для идентификации языковых элементов в тексте посредством дистрибутивной методики.
Полезность и важность применения квантитативного подхода к изучению лингвистических объектов подчеркивали многие выдающиеся лингвисты прошлого и настоящего. Полезный и интересный материал о статистическом моделировании в лингвистике содержится также в разделе "Методы статистического моделирования в языкознании" в учебнике "Прикладное языкознание" [Мартыненко 1996]. Однако квантитативные методы не в состоянии решить любые проблемы анализа языковых явлений; они могут лишь охватить определенный аспект языка и речи, и, в том числе, отмеченное важно для разрешения существенного аспекта, отражающего ряд важных сторон речевой деятельности, так как эти стороны невозможно обнаружить только качественным анализом.
14
Лингвистические основы изучения языка и речи точными методами включают, в первую очередь, разграничение языка и речи. Такое разделение представляет собой разные способы интерпретации одного и того же материального объекта, который можно назвать общей системой языка или речевой деятельностью. Возможность и необходимость разграничения двух сторон языковой деятельности - языка и речи - основываются на том очевидном факте, что в этой деятельности можно различить два взаимосвязанных, но отделяемых друг от друга компонента: средство (орудие) и его применение.
Учитывая специфику квантитативного системного исследования языка вообще и лексики, в частности, можно представить комплекс "язык-речь" в виде перекрещивающихся двух главных осей: оси с противопоставлением потенции - реализации и оси с противопоставлением динамики - статики [Тулдава 1987].
потенция ("язык")
динамика статика
•
реализация ("речь")
Рис. 1. Отношение "язык-речь"
15
Как видно из приведенной схемы, в соотношении "потенция-реализация" содержится элемент уровневости: потенция - высший уровень, а реализация - низший, речь как конкретная реализация языка является единственным, непосредственно наблюдаемым объектом лингвистики. Именно вследствие этого корпусная лингвистика, основы которой сейчас создаются, является чрезвычайно важным направлением современного языкознания.
В квантитативной лингвистике противопоставление языка и речи имеет прямой практический смысл [Головин 1971, Пиотровский и др. 1977, Herdan 1956 и др.]. С потенцией и реализацией связана идея о "полной системе", т.е. о полной группе событий, которые теоретически могут произойти в данных условиях в противопоставлении к ограниченному набору действительно реализуемых событий. Квантитативно выраженное различие между потенцией и реализацией может иметь эвристическое значение и выступать, например, как вполне осмысленный типологический критерий. Можно связывать потенцию и реализацию с соотношением между генеральной совокупностью и выборкой из этой генеральной совокупности: первая относится к языку, вторая - к речи.
Согласно мнению Ю. Н. Марчука, корпусная лингвистика может включать не только исследование корпусов текстов, но также и корпусов словарей как регистраторов обширного словарного материала. [См. Поликарпов 1979]. При этом, естественно, должна быть отработана методика анализа качественно отличающихся друг от друга материалов.
Реализация может рассматриваться как актуализация или выбор одного из возможных вариантов в данной ситуации [Марчук 2000], например, выбор подходящего слова из данного семантического поля. В этом смысле можно противопоставлять словарь (лексикон) и текст. Существует мнение, что с понятиями потенции и реализации как характеристиками языка и речи
16
связывают также понятия вероятности и частотности: язык вероятностен, речь частотна [Головин 1971].
Характеристики динамики и статики используются часто при разграничении речи как процесса и речи как результата этого процесса. Однако уровень языка рассматривается чисто в статистическом плане как инвентарь языковых средств и набор правил. Разницу между сферами динамики и статики мы видим еще и в том, что динамика (механизм и процесс) связывается с деятельностью мозга, а статика (язык как предмет) находится вне человека.
1.1.3. Аспекты речевой деятельности
В системе речевой деятельности различают четыре основных аспекта (подсистемы): на языковом уровне - языковую компетенцию и языковую схему, на речевом уровне - речевой процесс (акт) и речевой продукт (текст).
Названные выше четыре аспекта или подсистемы выявляются вследствие того, что парные признаки - потенция - реализация и динамика -статика накладываются друг на друга, перекрещиваясь, в результате чего образуется структура, аналогичная четырехпольной таблице сопряженности альтернативных признаков.
В результате соотношения аспектов данные признаки можно представить следующим образом:
Признаки Динамика Статика
Потенция (язык) Языковая компетенция Языковая схема
Реализация (речь) Речевой процесс Речевой Продукт
Рис. 2. Аспекты речевой деятельности
17
Языковая схема
Под языковой схемой понимается система языковых элементов и отношений между ними. Эти отношения могут относиться как к синтагматике, так и к парадигматике. В первом случае мы имеем прямое отношение к выявлению синтагматики через корпус исходных текстов. Языковую схему можно рассматривать как статическую систему данного языка в целом, т.е. как суммарную совокупность лингвистических элементов и отношений между ними. Языковая схема отличается устойчивостью в рамках данного языка, в ней выделяется, например, общая лексика, присущая всем подъязыкам, и она характеризуется стабильными связями и закономерностями на общеязыковом уровне. Выработанное общественной практикой типичное и общепринятое языковое употребление, регулярно повторяющееся в определенной сфере коммуникации и отражающееся в языковой схеме в виде устойчивого "ядра" подсистемы, называется "нормой" данного языка. В квантитативной лингвистике норму можно определить как наиболее вероятный состав элементов и наиболее вероятные отношения между элементами.
Языковая компетенция
Языковая компетенция является отражением в сознании людей языковой схемы, т.е. это набор элементов и системных отношений между ними, сходных (в плане отражения) с элементами и отношениями языковой схемы. С отмеченным непосредственно связан особый динамический компонент, необходимый для приведения языка в действие. Без обращения к соседним наукам лингвистика не в состоянии полностью объяснить действительную природу и внутренние закономерности речевой деятельности в целом. Точно |