Ранняя остановка
215
end if
end while
Наилучшие параметры
θ
*
, наилучшее
число шагов обучения
i
*
.
Одна из возможных интерпретаций ранней остановки – очень эффективный алго-
ритм выбора гиперпараметров. С этой точки зрения, число шагов обучения – просто
еще один гиперпараметр. На рис. 7.3 видно, что кривая качества этого гиперпара-
метра, измеренного на контрольном наборе, имеет U-образную форму. Большинство
гиперпараметров, управляющих емкостью модели,
имеет именно такую кривую
качества, как было продемонстрировано на рис. 5.3. В случае ранней остановки мы
управляем эффективной емкостью модели, определяя, сколько шагов ей может по-
требоваться для аппроксимации обучающего набора. Большинство гиперпараметров
приходится выбирать, применяя дорогостоящий процесс
выдвижения и проверки
гипотез: вначале мы задаем гиперпараметр, а потом производим несколько шагов об-
учения, чтобы посмотреть, что получилось. Гиперпараметр «время обучения» уника-
лен в том, что по определению в одном прогоне цикла обучения проверяется сразу
много его значений. Когда этот параметр автоматически устанавливается путем ран-
ней остановки, платить приходится только за периодическую проверку на контроль-
ном наборе в ходе обучения. В идеале это следует делать параллельно с процессом
обучения на отдельной машине, отдельном процессоре или отдельном GPU, не за-
действованных в основном процессе обучения. Если таких ресурсов нет, то стоимость
периодических вычислений можно уменьшить: сделать контрольный набор неболь-
шим, по сравнению с обучающим, или вычислять ошибку на контрольном наборе не
так часто, смирившись с меньшей разрешающей способностью оценки оптимального
времени обуче ния.
К дополнительным расходам на раннюю остановку следует также отнести хране-
ние копии наилучших параметров. Вообще говоря, эти расходы пренебрежимо малы,
поскольку параметры можно хранить в медленной памяти большого объема (напри-
мер, обучение производится в памяти GPU, а оптимальные параметры хранятся в па-
мяти хост-компьютера или на диске). Поскольку оптимальные параметры записыва-
ются сравнительно редко и никогда не читаются в процессе обучения, такие нечастые
операции записи слабо сказываются на общем времени обучения.
Ранняя остановка – ненавязчивая форма регуляризации в том смысле, что не тре-
буется вносить почти никаких изменений в базовую процедуру обучения, целевую
функцию или множество допустимых значений параметров. Следовательно, раннюю
остановку можно легко использовать, не изменяя динамику обучения. Совершенно
не так обстоит дело со снижением весов, когда нужно внимательно следить за тем,
чтобы не снизить веса слишком сильно и не завести сеть в плохой локальный мини-
мум, соответствующий патологически малым весам.
Раннюю остановку можно использовать автономно или в сочетании с другими
стратегиями регуляризации. Даже если применяются стратегии регуляризации,
модифицирующие целевую функцию во
имя лучшей обобщаемости, редко быва-
ет так, что наилучшая обобщаемость достигается в локальном минимуме целевой
функции.
Для ранней остановки необходим контрольный набор, а значит, часть обучающих
данных не следует подавать на вход модели. Чтобы
использовать эти отложенные
данные более эффективно, можно провести дополнительное обучение, после того как