378
Приложения
кого объекта (или события). Для полной уверенности мы должны использовать
изощренный классификатор высокой емкости, а его работа обходится дорого. Но
поскольку объект редкий, мы зачастую можем ограничиться куда меньшими вычис-
лениями, чтобы отклонить входы, не содержащие объекты. В такой ситуации можно
обучить последовательность классификаторов. У начальных классификаторов ем-
кость низкая, а при их обучении предпочтение отдается полноте. Иными словами,
они не отклоняют по ошибке вход, если объект присутствует. При обучении послед-
него классификатора на первое место ставится точность. На этапе тестирования мы
последовательно выполняем классификаторы и отклоняем пример, как только его
отвергнет первый же классификатор. Вообще говоря, это позволяет с высокой уве-
ренностью проверить присутствие объекта, пользуясь моделью высокой емкости, но
при этом не платить за полный вывод для каждого примера. Есть два способа обеспе-
чить высокую емкость каскада. Первый – сделать так, чтобы все члены, находящи-
еся ближе к концу каскада, имели высокую емкость. Очевидно, что тогда и система
в целом будет иметь высокую емкость, поскольку таковы некоторые ее компоненты.
Можно поступить иначе – построить каскад, в котором емкость каждой отдельной
модели низкая, но система в целом обладает высокой емкостью, будучи комбинацией
большого числа малых моделей. В работе Viola and Jones (2001) каскад усиленных ре-
шающих деревьев использовался для построения быстрого и устойчивого детектора
лиц, пригодного для использования в портативных цифровых камерах. В созданном
ими классификаторе для локализации лица применяется метод скользящего окна:
исследуется много прямоугольных окон и отбрасываются те, в которых лиц нет. Еще
в одной версии каскада предшествующие модели используются для реализации свое-
го рода механизма внимания: первые члены каскада локализуют объект, а последую-
щие выполняют дополнительную обработку, зная, где объект расположен. Например,
Google транскрибирует номера домов на изображениях Street View с помощью двух-
ступенчатого каскада, в котором для нахождения номера дома применяется одна мо-
дель машинного обучения, а для транскрипции – другая (Goodfellow et al., 2014d).
Решающие деревья сами по себе являются примером динамической структуры, по-
скольку каждый узел дерева определяет, какое поддерево вычислять для поступив-
шего входа. Чтобы объединить глубокое обучение с динамической структурой, мож-
но, например, обучить решающее дерево, в каждом узле которого имеется нейронная
сеть, принимающая решение о разделении (Guo and Gelfand, 1992), хотя обычно глав-
ная цель такого подхода не в том, чтобы ускорить вывод.
Продолжая в том же духе, можно использовать нейронную сеть, называемую
Do'stlaringiz bilan baham: |