Разрешение лексической многозначности. Часть 1.  

В вычислительной лингвистике Разрешение лексической многозначности(WSD, word sense disambiguation) - это процесс, связанный с определением смысла слова в предложении, в случае, если у слова имеется различное количество различных значений.

Например, рассмотрим два случая отличных значений, имеющихся у английского слова «bass”:

  1. вид рыбы (морской окунь, сибас)
  2. нижние звуковые частоты

и предложения:

  1. Я ходил на рыбалку, чтобы поймать морского окуня.
  2. Басовая партия песни очень подвижна.

Для любого человека очевидно, что в первом предложении слово bass имеет значение 1, указанное выше, а во втором предложении данное слово имеет значение 2. Однако разработка алгоритмов, позволяющих воссоздать человеческую способность различения смысла представляет немалую трудность.

Трудности

Одной из проблем в разрешении лексической многогранности является определение значений слова. В случаях, подобных слову bass, по крайней мере некоторые и значений очевидно отличны друг от друга. В других случаях, тем не менее, различные значения могут быть очень схожими (одно значение может быть метаморфическим или метонимическим расширением другого), при этом разделение смыслов слова ещё больше усложняется. В разных словарях даются различные разделения значений слов. Некоторые исследователи в качестве решения проблемы предлагают выбрать один словарь, и использовать только имеющиеся там значения. В основном, результаты исследований, в ходе которых использовалось широкое разграничение смыслов, имели больший успех, чем те, в которых использовалось более узкой разграничение, так, большинство ученых в своих трудах, не придавали значения детальным разграничениям.

Другая проблема заключается в меж-оценочном несоответствии. Системы WSD обычно лучше справляются с проверкой результатов по сравнению с людьми. Тем не менее, люди не всегда выполняли задачу единообразно – в заданном перечне значений или предложений не было согласия, в каком именно значении использовать то или иное слово. Не стоит ожидать, что компьютер, лучше справится с данной задачей, чем человек (если человек в данном случае выступает в качестве эталона, было бы нелогично предположить, что компьютер справится с задачей лучше), так выполнение перевода человеком служит верхним пределом. Тем не менее, производительность человека намного выше с широкими смысловыми разграничениями, нежели с узкими. Вот почему исследования широких разграничений более успешны.

Методы

Как для любой обработки естественного языка, для WSD существуют два основных метода - глубокие и поверхностные методы.

Глубокие методы предполагают обращение к всеобъемлющим знаниям о мире. Знание «ты можешь идти на рыбалку за разными видами рыбы, но не за низкочастотными звуками» и «в песнях есть низкочастотные звуки как партии, но не вид рыбы» применяется для определения, в каком значении употребляется слово. Эти методы не пользуются большим успехом на практике, в основном из-за того, что подобная ассоциация знаний не существует в форме, пригодной для ввода в компьютер или за пределами весьма ограниченных сфер. Тем не менее, если подобное знание существует, глубокие методы будут более точными, чем поверхностные методы. Также, существует давняя традиция в компьютерной лингвистике апробирования данных методов на выражениях закодированных знаний. Трудно сказать определенно является ли знание лингвистическим или всемирным знанием. Первая попытка была предпринята Маргарет Мастэмэн и ее коллегами из Научно-исследовательского Языкового Дискуссионного общества Кембриджского университета Англии в 1950 году. Ими были использованы данные интерпретации кода перфокарты тезауруса (систематизированный набор данных по какой-л. области, хранящийся в компьютере и позволяющий осуществлять поиск с помощью ключевых терминов) Рожэ и их пронумерованные «отделы», как указатель тем и повторений в тексте, определяющий пересечение множеств алгоритмов перевода. Попытка не увенчалась успехом, о чем свидетельствуют некоторые подробности (Уилкс и другие, 1996), но создала непоколебимые основы для дальнейшей работы, в особенности для оптимизации компьютерного обучения Яровского методу тезауруса в 1990 году.

При помощи поверхностных методов не пытаются осмыслить текст. А только принимают во внимание ближайшие слова, используя подобную информацию «если рядом со словом «bass» находятся слова - море или рыбалка, значит, его можно определить в значении «рыба»; если рядом со словом «bass» находятся слова – музыка или песня, возможно смысл слова относится к музыке. Правила могут быть автоматически получены с помощью компьютера, при использовании обучающей текстовой базы данных слов, добавленных с их смысловыми значениями. Этот метод, теоретически, не такой действенный, как глубокие методы, хотя на практике он дает лучшие результаты, вследствие ограниченности знаний компьютера о мире. Хотя такие предложения как «Собаки лаяли у дерева» могут озадачить, т.к. слово лаяли расположено возле слов - дерево и собаки.

Эти методы нормально функционируют при установлении окошка нейтрального значения слов, вокруг каждого слова, для устранения противоречий толкования текстовой базы данных и статистического анализа нейтральных ближних слов. Два поверхностных метода – Наивный Байесовский классификатор и дерево решений, используются для обучения и устранения возможности различного толкования. В современных исследованиях, методы, основанные на ядре, такие как метод опорных векторов, продемонстрировали лучший результат при обучении с учителем. Однако за последние несколько лет особых улучшений в работе этих методов не произошло.

Весьма наглядно будет сравнить проблему разрешения лексической многозначности с проблемой определения частей речи. Оба случая затрагивают разрешение многозначности или определения, в случае и со значением, и с частью речи. Тем не менее, алгоритмы, применяемые для одного случая, не могут также хорошо действовать для другого. Потому что часть речи слова первоначально устанавливается непосредственно примыкающим одним словом к трем другим, значение же слова может определяться словами, расположенными отдаленно. В настоящее время успешность алгоритмов определения частей речи намного выше, чем при использовании их в WSD. Последние показатели точности равны 95% или выше, по сравнению со значением 75% или ниже в случае с WSD при обучении с учителем. Эти цифры соответствуют английскому языку и могут быть отличными для других языков.

Иной аспект WSD, отличающий его от определения части речи - доступность данных для обучения. Хотя определить части речи в тексте относительно легко, обучить людей обозначать значения - намного тяжелее. Пользователь способен запомнить все части речи, которыми может становиться слово, однако запомнить все значения слова нельзя. В этой связи алгоритмы WSD применяют частичное обучение с учителем, которое допускает помеченные и непомеченные данные. Алгоритм Яровского был первым примером среди подобных алгоритмов.

Алгоритм частичного обучения с учителем Яровского использовал параметры «Одно значение на словосочетание» и «Одно значение на дискурс» для человеческих языков при WSD. Наблюдается, что в большинстве дискурсов и словосочетаний, слово имеет тенденцию проявлять только одно значение. Корпус текстов остается в изначальном положении, т.е. непомеченным.

Следующая часть

Закажите тестовый перевод —
бесплатно!
Pay order: