Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
z
z
Преобразование текстовых входных данных в текстовые выходные данные,
(например, для приведения к единому формату или выполнения машинного
перевода).
z
z
Предсказание следующих частей текста (например, для интеллектуального ввода
текста в смартфонах).
Этот список — лишь малая доля интересных задач машинного обучения, свя
занных с обработкой текста и изучаемых дисциплиной «обработка естественного
языка». И хотя мы затронем лишь краешек методик обработки естественного языка
на основе нейронных сетей, идеи и понятия, с которыми вы тут познакомитесь, —
неплохая отправная точка для дальнейшего изучения (см. раздел «Материалы для
дальнейшего изучения» в конце главы).
Учтите, что ни одна из нейронных сетей, рассматриваемых в этой главе, не спо
собна понимать текст или язык так, как человек, они просто отображают стати
стическую структуру текста в определенное целевое пространство — непрерывное
пространство тональностей, результаты многоклассовой классификации или новую
последовательность. Оказывается, что этого достаточно для решения многих задач
обработки текста, встречающихся на практике. Глубокое обучение в сфере обработки
естественного языка представляет собой просто распознавание паттернов примени
тельно к символам и словам, подобно тому как машинное зрение на основе глубокого
обучения (глава 4) — распознавание паттернов применительно к пикселам.
Прежде чем углубиться в предназначенные для обработки текста глубокие ней
ронные сети, разберемся с представлением текста в машинном обучении.
9.2.1. Представление текста в машинном обучении:
унитарное и федеративное кодирование
Большая часть встречавшихся нам в этой книге входных данных — непрерывные.
Например, длины лепестков ирисов меняются в определенном непрерывном диапа
зоне, показания метеорологических приборов в наборе данных Jenaweather — веще
ственные числа. Эти значения очевидным образом представляются в виде тензоров
с плавающей точкой (чисел с плавающей точкой). С текстом все иначе. Текстовые
данные поступают в виде строковых значений, состоящих из символов или слов,
а не вещественных чисел. Символы и слова дискретны. Например, между j и k не су
ществует никакой буквы, как существует число между 0,13 и 0,14. В этом смысле
символы и слова аналогичны классам в многоклассовой классификации (трем видам
ирисов или 1000 выходных классов MobileNet). Перед вводом в модели глубокого
обучения текстовые данные необходимо преобразовать в векторы (массивы чисел).
Такое преобразование называется
векторизацией текста
(text vectorization).
Существует несколько способов векторизации текста. Один из них —
унитар-
ное кодирование
(с ним мы познакомились в главе 3). В английском языке около
10 000 чаще всего используемых слов (в зависимости от того, как считать, конечно).
Мы сформируем из них
словарь
(vocabulary), в котором уникальные слова можно
отсортировать в определенном порядке (например, в порядке уменьшения частоты
Do'stlaringiz bilan baham: |