Приведет ли глубокое обучение к отмиранию всех прочих алгоритмов?
Тема ненужности всех остальных алгоритмов моделирования в связи с пришест вием глубокого обучения раз за разом возникает на интернет-форумах. Ответ на этот вопрос отрицательный, потому что для многих сравнительно простых при-ложений машинного обучения гораздо более простые алгоритмы прекрасно рабо-тают и обеспечиваюттребуемую верность модели.С моделями типа логистической регрессии проще работать, поэтому, принимая решение, всегда нужно сопостав-лять трудоемкость с требованиями к верности. Алгоритмы же глубокого обучения особенно хорошо работают в случаях, когда мы мало знаем о предметной области, и конструирование качественных признаков вручную обходится дорого.
Оптимальный метод зависит от задачи
Правильное применение машинного обучения подразумевает поиск подхода, от-вечающего поставленной задаче. Мы пока не можем назвать единый метод, при-годный для всего на свете, поэтому должны всякий раз оценивать задачу и данные
поисках наилучшей модели. В этом смысл «теоремы об отсутствии бесплатных завтраков».
Теорема об отсутствии бесплатных завтраков
Эта теорема утверждает, что не существует модели, оптимальной для всех задач. Предпо-ложения, при которых лучше всего работает некоторая модель, могут не выполняться в дру-гой задаче. В машинном обучении нередко пробуют разные модели, стремясь найти такую, которая лучше других подходит в конкретном случае.
любого метода машинного обучения есть смещение и дисперсия. Чем бли-же модель к истинному распределению данных, тем лучше результаты алгоритма обучения в среднем.
Попробуем взглянуть на проблему с точки зрения практического примера. Если визуализация показывает, что данные очевидно линейны, то станете ли вы аппроксимировать их нелинейной моделью (например, многослойным перцеп-троном)? Наверное, нет, а возьмете что-нибудь попроще, скажем, логистическую регрессию. В конкурсах на сайте Kaggle оптимальный метод все время меняется. Но в тех случаях, когда победителем оказывается не глубокое обучение, первое место занимают обычно случайные леса и ансамблевые методы.
Размер набора данных также следует учитывать, принимая решение об ис-пользовании глубокого обучения. Полученные в последние годы эмпирические
Итоги и обсуждение 147
результаты свидетельствуют, что предсказательная сила глубокого обучения вы-сока, когда набор данных достаточно велик, т. е. результаты тем лучше, чем боль-ше набор данных. Нейронные сети обладают большей репрезентативной емко-стью, чем линейные модели, и лучше приспособлены для исследования данных. Эвристическое правило таково: обучить нейронную сеть можно, если имеется по меньшей мере 5000 помеченных примеров.
Do'stlaringiz bilan baham: |