Часть I • Актуальность и основные понятия
В парадигме машинного обучения создание подобного набора правил вручную
считается напрасной тратой сил. Вместо этого берется набор изображений, одна
часть из которых содержит лица, а другая — нет. А затем указывается желаемый
(то есть правильный) ответ (наличие/отсутствие лица) для каждого изображения.
Эти ответы называются
метками
(labels). Данная задача намного проще (фактически
тривиальна). Конечно, если изображений много, маркирование их всех может занять
некоторое время, но задачу маркирования можно разделить между несколькими
людьми и выполнять параллельно. По завершении маркирования изображений
можно применить алгоритм машинного обучения и дать возможность машине самой
определить набор правил. При использовании правильной методики машинного
обучения в результате получится обученный набор правил, позволяющий решать за
дачу обнаружения лиц с безошибочностью более 99 % — намного лучше, чем можно
надеяться в случае правил, создаваемых вручную.
Из предыдущего примера видно, что машинное обучение представляет собой
процесс автоматизации поиска правил для решения сложных задач. Такая автома
тизация удобна для задач наподобие обнаружения лиц, в которых люди интуитивно
чувствуют нужные правила и могут с легкостью маркировать данные. Для некото
рых других задач правила не известны интуитивно. Например, рассмотрим задачу
предсказания того, перейдет ли пользователь по отображаемому на вебстранице
рекламному баннеру при известном содержимом страницы, баннера и прочей
информации, скажем времени и местоположения. Ни один человек не может ин
туитивно давать точные предсказания для подобных задач. А даже если бы ктото
мог, паттерны, вероятно, будут меняться со временем и по мере появления нового
контента и новых рекламных объявлений. Но маркированные обучающие данные
можно найти в истории рекламного сервиса, они доступны в журналах серверов
рекламы. А наличие данных и меток само по себе означает, что машинное обучение
хорошо подходит для подобных задач.
На рис. 1.3 мы подробнее рассмотрим этапы машинного обучения. Существует
два важных этапа. Первый называется
этапом обучения
(training phase). Здесь алго
ритм получает данные и правильные ответы, которые вместе называют
обучающими
данными
(training data). Отдельные пары из входных данных и желаемого ответа на
зываются
примерами данных
или
выборками
(examples). На основе примеров данных
в результате процесса обучения получаются автоматически подобранные
правила
(rules). И хотя правила были подобраны автоматически, нельзя сказать, что они
подбираются с чистого листа. Другими словами, алгоритмы машинного обучения
не проявляют творческих навыков при создании правил. В частности, специалист
человек намечает эскиз правил на отправном этапе обучения. Этот эскиз отражается
в
модели
(model), формирующей
пространство гипотез
(hypothesis space) всех пра
вил, которые только может усвоить машина. Без этого пространства гипотез про
странство возможных правил оказалось бы ничем не ограниченным и бесконечным,
а значит, неподходящим для поиска хороших правил за определенный промежуток
времени. Мы во всех подробностях опишем возможные виды моделей и расскажем,
как выбрать оптимальную для конкретной задачи. Пока же достаточно отметить, что
в контексте глубокого обучения модели различаются количеством слоев, из которых
состоит нейронная сеть, типами этих слоев и тем, как они состыковываются.
Do'stlaringiz bilan baham: |