Введение
Актуальность темы исследования. Сохранение языка — важнейшая задача его носителей. С этой целью ведутся постоянные исследования в области языкознания. Но языки не статичны, процесс их развития продолжается и в настоящее время.
В первую очередь, развитие языка сказывается на его лексике, что проявляется в виде образования новых слов средствами языка или путем заимствования. Помимо этого, непрерывно идут процессы устаревания, опрощения, переразложения, усложнения и декореляции существующих слов.
Базовым методом исследования лексических систем является этимологический анализ. Он основывается на закономерных звуковых и морфологических изменениях слов в процессе эволюции языка, учитывает регулярные переходы одних типов лексического значения слова в другие.
На сегодняшний день разработано множество методик этимологического анализа, но все они подразумевают кропотливый ручной труд, занимающий многие годы. Примером тому служит десятилетие, затраченное Фасмером на составление этимологического словаря русского языка.
В последние годы появился ряд программных систем позволивших автоматизировать выявление закономерных фонетических соответствий, изменений в лексическом, фонетическом, семантическом составе слов на разных этапах развития языка, однако самые объемные этапы — выяснение особенностей развития словообразовательной структуры слов и выяснение особенностей бытования слов остались неавтоматизированными. Это связано с тем, что задача стоит на стыке нескольких областей; лингвистики, математического моделирования и искусственного интеллекта. При этом аппарата каждой науки в отдельности недостаточно для автоматизации. Однако, на современном этапе решение данной задачи представляется возможным на основе бурно развивающихся методов системного анализа.
Таким образом, применение аппарата системного анализа для автоматизации методов выявления слов иноязычного происхождения является актуальной задачей.
Цель и задачи исследования. Целью работы является повышение эффективности моделей и методов этимологического анализа лексических систем естественных языков. Для достижения цели необходимо решить следующие задачи:
1. Анализ методик выявления слов иноязычного происхождения в лексических системах естественных языков;
2. Разработка математического аппарата, необходимого для автоматизации этимологического анализа;
3. Разработка нечетких критериев идентификации слов иноязычного происхождения;
4. Разработка алгоритмического и программного обеспечения процесса поиска слов иноязычного происхождения в лексических системах естественных языков;
5. Анализ точности разработанных критериев;
6. Анализ эффективности разработанных алгоритмов.
Объектом исследования является процесс этимологического анализа.
Методы исследования. Решение рассматриваемых в диссертации задач базируется на аппарате структурной и прикладной лингвистики, нечеткой математики, нечеткой логики, порождающих грамматик Хомского, системного анализа.
Научная новизна состоит в следующем:
— Разработан аппарат нечеткой литерной логики, позволяющий работать с лексическими системами естественных языков на основе семантики слов;
— Разработана модернизация аппарата нечетких порождающих грамматик, позволяющая строить нечеткие пространства цепочек над словарем за одну процедуру вывода;
5
— Разработана система нечетких критериев идентификации слов иноязычного происхождения;
— Формализована процедура выявления новых слов, их тематических групп, синонимов и переводов;
— Формализована методика выявления слов иноязычного происхождения.
Практическая ценность работы заключается в следующем:
— Полученные результаты формируют теоретическую и практическую базу для дальнейших лингвистических исследований;
— Аппарат нечеткой литерной логики может быть применен: в экспертных системах; в системах семантического анализа текстов на естественном языке; в поисковых машинах; при анализе речи, и в других задачах.
— Разработанная модификация аппарата нечетких порождающих грамматик может быть применена: в поисковых машинах; при решении задач распознавания образов; при описании лексических систем и грамматик естественных языков, и в других задачах.
— Формализованная процедура выявления новых слов может быть применена при создании автоматизированных словарей, новостных лент и др.
— Разработанный алгоритм нечеткой кластеризации может применяться при создании автоматических рубрикаторов естественно-языковых ресурсов, анализе речи.
— Система автоматизированного этимологического анализа позволяет существенно сократить время, требуемое на поиск слов иноязычного происхождения в лексических системах естественных языков.
Достоверность полученных результатов основана на непротиворечивых исходных положениях и корректных выводах с подтверждением экспериментальной проверкой разработанных алгоритмов.
Реализация результатов работы. Теоретические результаты реализованы в виде программных модулей, позволяющих проверить работоспособность разработанных алгоритмов.
Результаты работы внедрены в учебный процесс кафедры САПР И ПК Волгоградского государственного технического университета, а также в организации: ОАО «Волгоградгоргаз»; ООО КП «Комплекс»; 000 «Геоцентр»; 000 ПКЦ«Газстройсервис»; 000 «ПРАЙМ».
Положения выносимые на защиту.
— Аппарат нечеткой литерной логики;
— Модернизация аппарата нечетких порождающих грамматик, позволяющая строить нечеткие пространства цепочек над словарем за одну процедуру вывода;
— Система нечетких критериев идентификации слов иноязычного происхождения;
— Алгоритмическое обеспечение процесса поиска новых слов;
-— Нечеткие критерии выявления слов иноязычного происхождения;
— Алгоритмическое и программное обеспечение процесса поиска слов иноязычного происхождения в лексических системах естественных языков.
Апробация работы. Основные положения диссертационной работы докладывались на следующих конференциях:
— смотре-конкурсе научных, конструкторских и технологических работ студентов, ВолгГТУ, Волгоград, 10—13 мая 2004 г. (работа заняла 3 место);
— VII-й всероссийской научной конференции с международным участием «Новые информационные технологии. Разработка и аспекты применения», Таганрог, 25—26 ноября 2004 г.;
— Ш-ей Всероссийской конференции «Инновационные технологии в обучении и производстве», Камышин, 20—22 апреля 2005 г. (работа получила поощрительную премию);
— смотре-конкурсе научных, конструкторских и технологических работ студентов, ВолгГТУ, Волгоград, 10—13 мая 2005 г. (поощрительная премия);
— Ш-ем Международном научно-практическом семинаре «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Коломна, 15—17 мая 2005 г.;
— Ш-ей Всероссийской научно-практической конференции «Технологии Интернет на службе обществу», Саратов, 26—28 мая 2005 г.;
— V-ой Международной научно-методической конференции «Дистанционное обучение — образовательная среда XXI века», Минск, 10—11 ноября 2005 г.;
— Ш-ей Международной научно-технической конференции «Интеллектуальные системы (AIS' 06). Интеллектуальные САПР», Дивноморское, 3—10 сентября, 2006 г.;
— IV-й международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Коломна, 28-30 мая 2007 г.
По результатам исследований опубликовано 12 статей, из них 2 в журналах, рекомендованных ВАК.
Структура и содержание диссертационной работы. Диссертационная
работа состоит из введения, четырех глав с выводами, заключения, библиографического списка из 259 наименований, и приложений. Общий объем работы 151 страница, в том числе 32 рисунка, 82 формулы и 6 таблиц.
8
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, дана общая характеристика работы.
В первой главе приводятся обзор аналогов и результаты анализа: методик выявления слов иноязычного происхождения в лексических системах естественных языков; признаков выявления неологизмов; алгоритмов кластеризации.
На основе результатов исследования производится уточнение цели работы и задач, которые необходимо решить для ее достижения.
Во второй главе приводится описание разработанного аппарата нечеткой литерной логики (НЛЛ), оперирующего семантикой слов на основе их символьного представления, что позволяет вычислять степень близости слов без словарей.
Также приводится описание нечетких порождающих «И/ИЛИ» грамматик, позволяющая строить нечеткие пространства цепочек над словарем за одну процедуру вывода;
В третьей главе приводится описание системы автоматизированного этимологического анализа.
В ходе разработки системы автоматизированного этимологического анализа: формализована процедура выявления новых слов, их тематических групп, синонимов и переводов; разработана система нечетких критериев идентификации слов иноязычного происхождения, формализована методика выявления слов иноязычного происхождения.
В четвертой главе приводятся результаты анализа разработанных критериев и алгоритмов, в ходе которого была показана их точности и эффективности.
В заключении приведены выводы и основные результаты работы.
В приложении приведены материалы о внедрении результатов диссертационной работы.
Диссертационная работа выполнена на кафедре САПР и ПК Волгоградского государственного технического университета.
1 Состояние вопроса и постановка задачи исследования
1.1 Анализ методик этимологического анализа
Лексикология (от греч, Lexikos — «относящийся к слову» и logos ¦— «слово, учение»)[1] — раздел языкознания, изучающий лексику (словарный состав) языка и слово как единицу лексики. Одной из основных задач лексикологии является исследование значений слов и фразеологизмов, изучение многозначности, омонимии, синонимии, антонимии и других отношений между значениями слов. В сферу ведения лексикологии входят также изменения в словарном составе языка, отражение в лексике социальных, территориальных, профессиональных характеристик людей, которые говорят на языке (их принято называть носителями языка).
Словарный состав современного русского языка прошел длительный путь становления. Наша лексика состоит не только из исконно русских слов, но и из слов, заимствованных из других языков. Иноязычные источники пополняли и обогащали русский язык на протяжении всего процесса его исторического развития. Одни заимствования были сделаны еще в древности, другие -сравнительно недавно. [2] Изучением процессов заимствования занимается этимология.
Этимология (наука о происхождении слов) — одна из древнейших отраслей языкознания. Ее основоположниками были древнегреческие философы, в трудах которых и появился термин етоцоАлуш, образованный из ?ri|iov «истина» и Xoyoq «слово, учение» и первоначально обозначавший «науку об истине», или об истинном значении слов.
За время существования этимологии как науки понимание ее целей неоднократно менялось, еще большим изменениям подвергалась методика этимологических исследований.
п
Для выявления принципов построения оптимальной методики этимологического анализа были изучены следующие этапы в истории этимологии*.
— первые попытки этимологических исследований;
— античность;
— средневековье;
— младограмматизм;
— открытие звуковых законов;
— вклад А. Мейе в развитие сравнительно-исторического метода;
— школа «слов и вещей»;
— звуковые первоэлементы Н.Я. Марра;
— семантические первоэлементы А. Жюре;
— неогумбольдтианство;
— теория символических форм;
— гипотеза лингвокультурологической относительности Сепира-Уорфа;
— современный этимологический анализ.
История этимологии как науки доказывает, что протрессивный путь ее развития определяется комплексным подходом к истории слова во всем его многообразии:
— звуковая оболочка;
— значение;
— культурная и когнитивная парадигмы, определяющие развитие внутренней формы.
Если традиционный фонетический анализ можно назвать тезисом, то принцип «слов и вещей» и поиски семантических первоэлементов являются антитезисом, а современный этап в развитии этимологии представляется синтезом, позволяющим оценить слово как многоплановое явление.
12
В основе современного этимологического исследования лежит традиционный фонетический анализ, основные законы которого были разработаны младограмматиками (А. Лескин, Б. Дельбрюк, Г. Пауль, Г. Остхоф, К. Бругман). Он позволяет добиваться объективности исследования «материальной», звуковой стороны истории слова, принимая во внимание принцип аналогии и типологического сопоставления.
Поскольку слово является единством звучания и значения, то фонетический анализ сам по себе не является достоверным при сравнительно-исторических исследованиях.
В процессе изучения семасиологических закономерностей истории слова широко привлекаются экстралингвистические факторы: исследуется соответствующая месту и времени употребления слова культурная среда (данные фольклора, мифологии, поэзии и т.д.). При этом используются достижения представителей школы «слов и вещей» (X. Шухардт), неогумбольдтианцев (Л. Вайсгербер, Й. Трир, В. Порциг) и неокантианцев (О. Либман), указывающих на необходимость объединения усилий ученых, изучающих язык и культуру, язык и мышление. Семантический анализ слова предусматривает изучение соответствующего понятийного поля с учетом гносеологического аспекта языка.
В рамках отдельного слова фонетические и семантические закономерности должны быть совместимы, не противоречить друг другу. Возможно наложение запретов на результаты семантического анализа со стороны фонетики. Результатом такого анализа является не только изучение истории слова, но и воссоздание соответствующей языковой картины мира, определение особенностей познания действительности носителями языка.
Этимология слова почти всегда является гипотезой, относительность которой зависит от принадлежности слова к тому или иному слою словаря, объема сравниваемого материала и глубины реконструкции.
Таким образом, мы можем полагать оптимальной методику этимологического анализа только в том случае, если она основана на
13
комплексном подходе, предусматривающем исследование изменения значения с учетом данных фонетического анализа, историко-культурной парадигмы и понятийного поля на основе принципа множественной этимологии. Результаты этимологического анализа можно считать достоверными только при отсутствии противоречий между результатами упомянутых выше составляющих.
На основе выявленных принципов, а также анализа методик описанных в работах Н.М. Шанского, СВ. Воронина и Л.Л. Касаткина выявлены возможности распараллеливания вычислений и разработана модифицированная методика (представлена на рис. 1.1), что позволяет существенно сократить время решения задачи.
Выяснение закономерных
фонетических соответствий
и особенностей развития
словообразовательной
структуры слов_____
Выяснение особенностей бытования слов в языке
Выяснение закономерных изменений
в лексическом, фонетическом,
семантическом составе слов
Рисунок 1.1. Модифицированная методика этимологического анализа.
Как показал анализ предметной области, на сегодняшний день не разработано ни одной программной системы автоматизации этимологического анализа. Безусловно, существующие пакеты data-mining, такие как SPSS, KEIS, STATIST1CA и Deductor, могут применяться для частичной автоматизации процесса выяснения закономерных фонетических соответствий и особенностей развития словообразовательной структуры слов. Однако, в связи с использованием в данных системах универсальных алгоритмов, которые не учитывают особенностей предметной области, получаемые разбиения имеют очень низкое качество, что приводит к большому количеству ошибок.
На основании вышесказанного можно сделать вывод о том, что в автоматизации нуждается не только шаг выяснения особенностей бытования слов в языке, но и шаг выявления закономерных фонетических соответствий и особенностей развития словообразовательной структуры слов.
14
1.2 Анализ существующих алгоритмов кластеризации
Для автоматизации первого шага модифицированной методики (см. п. 1.1) проведен сравнительный анализ наиболее эффективных алгоритмов кластеризации по следующим характеристикам:
— зависимость от размера задачи;
— устойчивость при работе с неполными данными;
— способ задания числа кластеров;
— возможность уточнения данных во время работы алгоритма.
Выбор данных характеристик обусловлен ограничениями, накладываемыми размерностью задачи и высокой сложностью предметной области.
На сегодняшний день существует множество различных алгоритмов кластеризации. Все они делятся на две большие группы:
— иерархические;
— неиерархические.
Иерархические методы кластерного анализа осуществляют построение дерева путем последовательного объединения меньших кластеров в большие или разделении больших кластеров на меньшие.
Ярким представителем агломеративных (объединяющих) иерархических алгоритмов является Cure (clustering using representatives). Он осуществляет объединение кластеров на основе сходства между представительными точками каждого из них.
Достоинства алгоритма:
— полиномиальная зависимость от размера задачи;
— автоматическое задание числа кластеров.
Недостатки алгоритма:
— низкая устойчивость при работе с неполными данными;
15
— нет возможности уточнения данных во время работы алгоритма.
Алгоритм ROCK (robust clustering using links) осуществляет кластеризацию на основе принципа соседства точек, который очень близок принципу и понятию взаимного соседства.
Достоинства алгоритма:
— полиномиальная зависимость от размера задачи;
— автоматическое задание числа кластеров.
Недостатки алгоритма:
— низкая устойчивость при работе с неполными данными;
— нет возможности уточнения данных во время работы алгоритма.
Алгоритм CHAMELEON работает в два этапа. На первом этапе он использует алгоритм разделения графа, для построения предварительного разбиения. На втором этапе, кластеры предварительного разбиения объединяются иерархическим агломеративным алгоритмом на основе произведения их взаимной связности и взаимного сходства.
Достоинства алгоритма:
— полиномиальная зависимость от размера задачи;
— автоматическое задание числа кластеров.
Недостатки алгоритма:
— низкая устойчивость при работе с неполными данными;
— нет возможности уточнения данных во время работы алгоритма.
Ярким представителем дивизивных (разделяющих) иерархических алгоритмов является BIRCH (balanced iterative reducing and clustering using hierarchies). Он осуществляет построение иерархии путем поэтапного добавления объектов в CF-tree, с выбором наиболее близкого листа для каждого из них.
Достоинства алгоритма:
16
— полиномиальная зависимость от размера задачи;
— автоматическое задание числа кластеров.
Недостатки алгоритма:
— низкая устойчивость при работе с неполными данными;
— нет возможности уточнения данных во время работы алгоритма.
Неиерархические методы оптимизируют некоторую целевую функцию. Приведем описание наиболее эффективных представителей данной группы.
Наиболее распространенным неиерархическим алгоритмом является к-средних. Он строит к кластеров, расположенных на возможно больших расстояниях друг от друга.
Достоинства алгоритма:
— полиномиальная зависимость от размера задачи;
— простота реализации. Недостатки алгоритма:
— ручное задание числа кластеров;
— низкая устойчивость при работе с неполными данными;
— нет возможности уточнения данных во время работы алгоритма.
Алгоритм РАМ является модификацией алгоритма к-средних, алгоритмом к-медианы (k-medoids). Достоинства алгоритма:
— полиномиальная зависимость от размера задачи;
— простота реализации. Недостатки алгоритма:
— ручное задание числа кластеров;
— низкая устойчивость при работе с неполными данными;
— нет возможности уточнения данных во время работы алгоритма.
17
|