Разрешение лексической многозначности. Часть 2.  

Алгоритм начинает работу с большим корпусом текстов и определяет примеры данных полисемичных слов, сохраняя строки всех подходящих предложений. В частности, в своей работе 1995 года Яровский использует слово «растение» чтобы продемонстрировать работу алгоритма. Предположим, что у слова есть два значения, следующий шаг – определить меньшее количество исходных словосочетаний, отображающих каждое значение, присвоить каждому значению метку, т.е. значение А и Б, затем установить соответствующую метку для всех обучающих примеров, содержащих исходные словосочетания. В этом случае, слова «жизнь» и «производство» подберутся как исходные словосочетания для значений А и Б соответствующим образом. Остаточные примеры (85%-98% соответственно Яровскому) остаются непомеченными.

В начале алгоритм выбирает исходные словосочетания в указанном порядке, которые будут проводить безошибочное и продуктивное различие между значениями А и Б. Это делается путем отбора исходных слов отдельной из записи в словаре для этого значения. Словосочетания имеют тенденцию более сильного влияния, если они расположены рядом с отмеченным словом, и действуют слабее при нахождении на отдалении. В соответствии с критериями Яровского (1993), отобраны будут исходные слова, которые появляются в наиболее достоверных взаимосвязанных сочетания с отмеченным словом. Эффект намного сильнее для слов в предикативно-аргументированном отношении, чем в произвольных совмещениях, расположенных на одинаковом расстоянии к исходному слову. И намного сильнее для сочетаний со знаменательными словами по сравнению с сочетаниями со служебными словами. Учитывая вышесказанное, сочетаемое слово может иметь несколько связей с отмеченным словом во всем корпусе текстов. Поэтому слово может располагаться по-разному или даже иметь иную классификацию. В качестве альтернативы, оно используется для распознания единственного определенного словосочетания для каждого класса, а также для источников только тех контекстов, в которых содержится одно из этих определяемых слов. Общедоступная база данных, именуемая Ворд Нэт, может быть использована в качестве автоматического источника подобных определяемых терминов. Вдобавок, слова, которые часто встречаются около отмеченного слова, могут быть выбраны как исходные словосочетания. Этот метод не полностью автоматический, поэтому человек должен сделать вывод какое слово должно быть выбрано для каждого отмеченного значения слова, результаты будут достоверными указателями значений.

Затем применяется список решений алгоритма для определения других достоверных указателей словосочетаний. Данный обучающий алгоритм рассчитывает вероятность В (Значение/Словосочетание), а список решений располагается в линии рядом с логарифмическим отношением правдоподобия.

Логарифм (В (Значение А/Словосочетание / Значение Б/ Словосочетание) )

Алгоритм хеширования будет использоваться для исключения слов со смыслом равным нулю. Список решений алгоритма разрешает многие вопросы в многочисленных рядах зависимого источника данных, с помощью использования только наиболее достоверных фрагментов фактов, вместо приведения в соответствие целого множества словосочетаний.

Получившийся в результате классификатор будет распространяться, на целую серию экземпляров. Добавим эти примеры в остаточное содержимое, отмеченное как А и Б, с вероятностью выше обоснованного предела для исходных наборов. Итерационно применим список решений алгоритма, а также предыдущий шаг. Чем больше заново приобретенных словосочетаний будет добавлено к набору множеств, тем быстрее множество значения А и значения Б будет расти, а исходное оставшееся содержимое будет уменьшаться. Тем не менее, данные словосочетания останутся в вышеуказанном наборе множеств, в том случае, если их вероятность классификации останется над пределом, в противном случае они будут возвращены в остаточное содержимое для более поздней классификации. В конце каждого повторения параметр «Одно на дискурс» может использоваться для помощи в предотвращении ошибок в сочетаниях на начальной стадии и, следовательно, улучшения степени чистоты набора множеств.

Для того чтобы избежать многочисленных сочетаний, которые становятся указателями неверной категории, включение в состав класса предела необходимо случайно видоизменить. Для этой же цели, после промежуточного совпадения, необходимо будет увеличить ширину контекстного окна алгоритма.

Алгоритм будет выполнять цикл до момента нахождения верных словосочетаний. Параметр «Одно значение на дискурс» может быть применен для исправления ошибки. Для отмеченного слова, которое содержит двоичное смысловое разделение, если встречаемость мажоритарных значений А превысит пределы миноритарных значений Б, меньшая часть будет переразмечена как А. Согласно Яровскому, чтобы любое значение стало безусловно преобладающим, появления помеченного слова должны быть не меньше 4 раз.

Когда алгоритм совпадает с постоянным остаточным множеством, достигается окончательный список решений отмеченного слова. Большинство верных словосочетаний расположено наверху нового списка, вместо первоначальных значений слов. Исходный, непомеченный корпус текстов затем помечается метками значений и вероятностями. Окончательный список решений может уже содержать новые данные. Словосочетание из верхнего ряда списка применяется для классификации новых данных. Например, если обновленное верхнее словосочетание отмеченного слова из множества значений А, значит, отмеченное слово классифицируется со значением А.

 

Предыдущая часть

Закажите тестовый перевод —
бесплатно!
Pay order: