x
, если вероятность выходной последовательности
p
(
y
|
x
) <
t
для некоторого порога
t
. Первоначальное определение
p
(
y
|
x
) было упрощенным, основанным на простом
перемножении всех выходов функций softmax. Возникла потребность в разработке
специализированного выходного слоя и функции стоимости, которая вычисляла бы
теоретически правильное логарифмическое правдоподобие. При таком подходе ме-
ханизм отклонения примеров стал работать намного эффективнее.
На этом этапе покрытие оставалось ниже 90%, но очевидных теоретических проб-
лем не просматривалось. Поэтому в соответствии с нашей методологией нужно было
оснастить систему средствами измерения качества на обучающем и тестовом набо-
рах, чтобы понять, вызвана проблема переобучением или недообучением. В данном
случае ошибки на обучающем и тестовом наборах были почти одинаковы. Вообще,
главная причина, по которой работа над проектом шла так гладко, – доступность на-
бора данных, содержащего десятки миллионов помеченных примеров. Коль скоро
ошибки на обоих наборах оказались так близки, возникло подозрение, что корень
проблемы – недообучение или какой-то дефект в подготовке обучающих данных.
Одна из рекомендуемых нами стратегий отладки предполагает визуализировать
самые серьезные ошибки модели. В данном случае это означало визуализацию не-
правильно транскрибированных примеров из обучающего набора, которым модель
приписала самую высокую степень уверенности. Оказалось, что большинство таких
372
Практическая методология
примеров было слишком сильно обрезано, так что из кадра выпало несколько цифр
адреса. Например, после обрезки на фотографии адреса «1849» могли остаться только
цифры «849». Проблему можно было бы решить, потратив несколько недель, чтобы
повысить верность системы обнаружения номера дома и выделения интересую щей
области. Вместо этого было принято гораздо более практичное решение – просто уве-
личить ширину кадра, делая ее всегда больше той, что предсказывала система обнару-
жения номера дома. Одно лишь это изменение повысило покрытие на 10%.
И еще несколько процентов удалось выжать путем настройки гиперпараметров.
Свелась она в основном к увеличению размера модели с сохранением некоторых
ограничений на вычислительную стоимость. Поскольку ошибки обучения и тестиро-
вания оставались примерно равными, всегда было понимание, что недотягивание до
целевых показателей качества связано с недообучением и, быть может, несколькими
оставшимися проблемами в самом наборе данных.
В общем и целом проект транскрипции оказался весьма успешным, он позволил
транскрибировать сотни миллионов адресов быстрее и дешевле, чем было бы воз-
можно в случае привлечения людей.
Мы надеемся, что благодаря принципам проектирования, описанным в этой главе,
количество подобных успешных начинаний будет множиться.
Do'stlaringiz bilan baham: |