380
Приложения
Pham et al., 2012; Chen et al., 2014a,b) на базе ASIC (интегральных схем специального
назначения): цифровых, аналоговых (Graf and Jackel, 1989; Mead and Ismail, 2012)
или гибридных. В последние годы фокус сместился в сторону более гибких реали-
заций на основе ППВМ (программируемых пользователем вентильных матриц), до-
пускающих конфигурацию пользователем после изготовления.
Хотя в программных реализациях для процессоров общего назначения (CPU
и GPU) обычно используются 32- или 64-разрядные числа с плавающей точкой,
давно известно, что можно обойтись и меньшей точностью, по крайней мере на эта-
пе вывода (Holt and Baker, 1991; Holi and Hwang, 1993; Presley and Haggard, 1994;
Simard and Graf, 1994; Wawrzynek et al., 1996; Savich et al., 2007). В последние годы
этот вопрос приобрел особую остроту, поскольку глубокое обучение стало широко
использоваться в промышленных изделиях, а на примере GPU продемонстрирован
серьезный выигрыш, который может дать более быстрое оборудование. Еще одним
фактором, стимулирующим исследования в области специализированного оборудо-
вания для глубокого обучения, является замедление прогресса в разработке одного
ядра CPU и GPU; теперь повышение быстродействия происходит в основном за счет
распараллеливания обработки между несколькими ядрами (как в CPU, так и в GPU).
Эта ситуация сильно отличается от сложившейся в 1990-е годы (время предыдуще-
го поколения нейронных сетей), когда аппаратные реализации нейронных сетей (на
создание которых могло уйти до двух лет с начала проекта до выпуска готовой микро-
схемы) не могли конкурировать с CPU общего назначения ни по темпам развития,
ни по стоимости. Таким образом, специализированное оборудование – это способ
вый ти за привычные рамки во времена, когда проектируется новое оборудование
для устройств с низким энергопотреблением (например, смартфонов), а его цель –
сделать общедоступными приложения глубокого обучения (распознавание речи,
компью терное зрение, обработка естественных языков).
Недавние работы по реализации нейронных сетей с обратным распространением
на оборудовании с арифметикой низкой точности (Vanhoucke et al., 2011; Courbariaux
et al., 2015; Gupta et al., 2015) позволяют сделать вывод, что для обучения и исполь-
зования таких сетей достаточно от 8 до 16 разрядов. Ясно также, что на этапе обуче-
ния нужна большая точность, чем на этапе вывода, и что для снижения разрядности
можно использовать некоторые формы динамического представления чисел с фик-
сированной точкой. Традиционно числа с фиксированной точкой занимают фикси-
рованный диапазон (как если бы зафиксировать показатель степени в представлении
с плавающей точкой). Динамические представления с фиксированной точкой позво-
ляют разделить этот диапазон между множеством чисел (например, весов в одном
слое). Использование фиксированной точки вместо плавающей и понижение разряд-
ности уменьшают площадь, занимаемую оборудованием, энергопотребление и время
выполнения операции умножения, а именно на эти операции приходится основное
время при обучении и использовании современной глубокой сети с обратным рас-
пространением.
Do'stlaringiz bilan baham: