388
Приложения
12.4. Обработка естественных языков Под
обработкой естественных языков (ОЕЯ, англ. NLP) понимается использование
таких языков, как английский или русский, компьютером. Компьютерные програм-
мы обычно читают и порождают тексты на искусственных языках, спроектированных
с целью обеспечить эффективный и однозначный грамматический разбор. Естествен-
ные языки зачастую неоднозначны и не поддаются формальному описанию. К сфере
обработки естественных языков относятся такие приложения, как машинный пере-
вод, когда обучаемая система читает предложение на одном языке и порождает экви-
валентное ему на другом языке. Многие приложения ОЕЯ основаны на языковых мо-
делях, в которых определено распределение вероятности последовательностей слов,
символов и байтов в естественном языке.
Как и в случае других обсуждаемых в этой главе приложений, весьма общие ней-
росетевые методы можно с успехом применить и к обработке естественных языков.
Но для достижения высокого качества и масштабируемости важны предметно-ори-
ентированные стратегии. Для построения эффективной модели естественного языка
обычно используются методы, специализированные для обработки последователь-
ных данных. Во многих случаях мы предпочитаем рассматривать естественный язык
как последовательность слов, а не отдельных символов или байтов. Поскольку число
слов велико, словесные модели языка должны работать в разреженных дискретных
пространствах очень высокой размерности. Разработано несколько стратегий обеспе-
чения вычислительной и статистической эффективности таких моделей.
12.4.1. n -граммы В
языковой модели определено распределение вероятности последовательностей
лексем естественного языка. В зависимости от вида модели лексемой может быть
слово, символ или даже байт. Лексемы всегда дискретны. В самых ранних успешных
языковых моделях использовались последовательности лексем фиксированной дли-
ны, называемые
n -граммами.
В моделях на основе
n -грамм определена условная вероятность
n -ой лексемы при
условии предыдущих
n – 1 лексем. Произведения этих условных вероятностей опре-
деляют распределение вероятности более длинных последовательностей:
(12.5)
Это разложение – не что иное, как цепное правило вероятностей. Распределение
вероятности начальной последовательности
P (
x 1
, …,
x n –1
) можно смоделировать с по-
мощью другой модели с меньшим значением
n .
Обучение
n -граммных моделей не вызывает трудностей, потому что оценку мак-
симального правдоподобия можно вычислить, просто подсчитав, сколько раз каждая
возможная
n -грамма встречается в обучающем наборе. Модели на основе
n -грамм
были основным компонентом статистического моделирования языков в течение мно-
гих десятилетий (Jelinek and Mercer, 1980; Katz, 1987; Chen and Goodman, 1999).
Для небольших значений
n у
n -грамм даже есть специальные названия: