Большакова Е.И., Воронцов К.В.,
Ефремова Н.Э., Клышинский Э.С.,
Лукашевич Н.В., Сапин А.С.
Автоматическая
обработка текстов
на естественном языке
и анализ данных
НИУ ВШЭ, 2017 год
УДК 81’32+004.8
ББК 32.813
Б 79
Б 79 Автоматическая обработка текстов на естественном языке и анализ
данных : учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э.,
Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ,
2017. — 269 с.
ISBN 978–5–9909752-1-7
В учебном пособии рассматриваются базовые вопросы компьютерной линг-
вистики: от теории лингвистического и математического моделирования
до вариантов технологических решений. Дается интерпретация основных
лингвистических объектов и единиц анализа. Приведены сведения, необхо-
димые для создания отдельных подсистем, отвечающих за анализ текстов
на естественном языке. Рассматриваются вопросы анализа тональности и
тематического моделирования текстов, извлечения информации из текстов.
Предназначено для студентов и аспирантов высших учебных заведений,
работающих в области обработки текстов на естественном языке.
УДК 81’32+004.8
ББК 32.813
Published under CC BY-SA license
c
○
НИУ ВШЭ, 2017 c
○
Большакова Е.И., Воронцов К.В., Ефремова Н.Э.,
Клышинский Э.С., Лукашевич Н.В., Сапин А.С., 2017
Содержание
1 Компьютерная лингвистика:
задачи, подходы, ресурсы
Большакова Е.И.
7
1.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2 Приложения компьютерной лингвистики . . . . . . . . . . .
9
1.3 Сложности моделирования естественного языка . . . . . . .
14
1.4 Общие этапы и модули обработки текстов . . . . . . . . . . .
17
1.5 Лингвистические ресурсы: построение и применение . . . . .
21
1.6 Подходы к построению модулей и систем КЛ . . . . . . . . .
24
1.7 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
1.8 Список литературы . . . . . . . . . . . . . . . . . . . . . . .
28
2 Морфологический анализ текстов
Клышинский Э.С., Сапин А.С.
31
2.1 Морфологический анализ . . . . . . . . . . . . . . . . . . . .
31
2.2 Обзор модулей морфологического
анализа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
2.3 Методы хранения словарей . . . . . . . . . . . . . . . . . . .
58
2.4 Анализ несловарных слов . . . . . . . . . . . . . . . . . . . .
67
2.5 Разрешение морфологической омонимии . . . . . . . . . . .
70
2.6 Особенности омонимии в разных языках . . . . . . . . . . .
76
2.7 Список литературы . . . . . . . . . . . . . . . . . . . . . . .
80
3 Извлечение информации из текстов: портрет направления
Большакова Е.И., Ефремова Н.Э.
83
3.1 Специфика задач, подходы к решению, извлекаемая информация 84
3.2 Методы оценки качества извлечения . . . . . . . . . . . . . .
89
3
3.3 Именованные сущности и особенности их извлечения . . . .
90
3.4 Особенности извлечения атрибутов,
отношений и фактов . . . . . . . . . . . . . . . . . . . . . . .
95
3.5 Лингвистические шаблоны и правила . . . . . . . . . . . . .
99
3.6 Машинное обучение в задачах извлечения информации . . . 104
3.7 Инструментальные системы
для извлечения информации . . . . . . . . . . . . . . . . . . 109
3.8 Извлечение терминологической
информации . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.9 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.10 Список литературы . . . . . . . . . . . . . . . . . . . . . . . 122
4 Автоматические методы анализа тональности
Лукашевич Н.В.
127
4.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.2 Сложности анализа тональности текстов . . . . . . . . . . . 129
4.3 Словарные ресурсы для анализа
тональности . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.4 Анализ тональности документов в целом . . . . . . . . . . . 147
4.5 Анализ тональности по аспектам . . . . . . . . . . . . . . . . 154
4.6 Тестирование систем анализа тональности текстов . . . . . . 170
4.7 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
4.8 Список литературы . . . . . . . . . . . . . . . . . . . . . . . 179
5 Обзор вероятностных тематических моделей
Воронцов К.В.
195
5.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.2 Основы тематического моделирования . . . . . . . . . . . . . 198
5.3 Регуляризация . . . . . . . . . . . . . . . . . . . . . . . . . . 202
5.4 Интерпретируемость тем . . . . . . . . . . . . . . . . . . . . 211
5.5 Определение числа тем . . . . . . . . . . . . . . . . . . . . . 216
5.6 Модальности . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.7 Зависимости . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
5.8 Связи между документами . . . . . . . . . . . . . . . . . . . 228
5.9 Иерархии тем . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
5.10 Совстречаемость слов . . . . . . . . . . . . . . . . . . . . . . 234
5.11 Тематическая сегментация . . . . . . . . . . . . . . . . . . . 241
5.12 Критерии качества . . . . . . . . . . . . . . . . . . . . . . . 245
5.13 Разведочный информационный поиск . . . . . . . . . . . . . 249
5.14 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
5.15 Список литературы . . . . . . . . . . . . . . . . . . . . . . . 254
6 Автоматическая обработка текстов и анализ данных
Do'stlaringiz bilan baham: |