Во многих отношениях история компьютерного зрения - это история искусственного интеллекта. Обе дисциплины имитируют биологические процессы, основанные на понимании того, как работает мозг, и каждая из них продвинулась вперед благодаря появлению искусственных нейронных сетей, более совершенных вычислительных ресурсов и больших данных.
Многое из того, что мы знаем сегодня о зрительном восприятии, пришло к нам благодаря нейрофизиологическим исследованиям, проведенным на кошках в 1950-х и 1960-х годах [10]. Изучая, как нейроны реагируют на различные стимулы, двое ученых заметили, что человеческое зрение иерархично. Нейроны обнаруживают простые признаки, такие как края, затем реагируют на более сложные признаки, такие как формы, а затем, в конечном итоге, реагируют на более сложные визуальные представления.
Вооружившись этими знаниями, ученые-компьютерщики сосредоточились на воссоздании неврологических структур человека в цифровой форме. Подобно своим биологическим аналогам, системы компьютерного зрения используют иерархический подход к восприятию и анализу визуальных стимулов. В следующих разделах будет описано, как несколько экспериментов породили сегодняшнюю бурно развивающуюся отрасль компьютерного зрения с поддержкой ИИ [10].
Область искусственного интеллекта была основана на летнем семинаре, проведенном на территории Дартмутского колледжа в 1956 году [35], когда ученые объединили несколько разрозненных областей для уточнения и развития идей о мыслящих машинах. "Это было первое свидетельство институциональной тенденции к самоуверенным прогнозам, которая с самого начала поразила область искусственного интеллекта", - объясняет разработчик машинного обучения в Motion Metrics, специализирующийся на глубоких нейронных сетях.
Компьютерное зрение всерьез зародилось в 1960-х годах в университетах [36], которые рассматривали этот проект как ступеньку к искусственному интеллекту. Первые исследователи были чрезвычайно оптимистичны в отношении будущего этих смежных областей и продвигали искусственный интеллект как технологию, которая может изменить мир. Некоторые предсказывали, что в течение одного поколения будет создана машина, настолько же интеллектуальная, как человек. Шумиха принесла исследователям миллионы долларов государственного и частного финансирования. По всему
миру появились исследовательские центры. Однако международные усилия по
разработке искусственного интеллекта были сведены на нет из-за того, что они не оправдали возлагавшихся на них надежд.
Благодаря своему огромному оптимизму исследователи возлагали на общественность непомерно высокие надежды, не понимая при этом сложности задачи, которую они перед собой поставили. Когда обещанные результаты не оправдали надежд, область подверглась резкой критике и столкнулась с серьезными финансовыми трудностями.
Первые вычислительные ресурсы не могли технически соответствовать сложности проблем, которые ставили перед собой ученые, и даже самые впечатляющие проекты решали лишь тривиальные задачи. Более того, большинство исследователей работали в изолированных группах и не имели научной поддержки для значимого развития этой области.
В 1966 году американский компьютерный ученый и соучредитель лаборатории искусственного интеллекта Массачусетского технологического института Марвин Мински получил летний грант, чтобы нанять первокурсника Джеральда Сассмана, который должен был провести лето, соединив камеру с компьютером и заставив компьютер описать то, что он видит. "Нет нужды говорить, что Сассман не уложился в срок" [35]. Зрение оказалось одной из самых сложных и разочаровывающих проблем в искусственном интеллекте на протяжении следующих четырех десятилетий". Как однажды заметил эксперт по машинному зрению Бертольд Хорн, Сассман решил больше никогда не работать в области зрения".
К середине 1970-х годов правительства и корпорации потеряли веру в искусственный интеллект. Финансирование иссякло, и последовавший за этим период стал известен как "зима ИИ". Хотя в 1980-х и 1990-х годах наблюдалось небольшое возрождение, искусственный интеллект в основном был отнесен к области научной фантастики, и серьезные ученые-компьютерщики избегали этого термина [35].
С появлением Интернета компьютерщики получили доступ к большему
количеству данных, чем когда-либо прежде. Вычислительное оборудование
продолжало совершенствоваться по мере снижения стоимости. Рудиментарные нейронные сети и алгоритмы, разработанные в 1980-90-х годах, совершенствовались. Сейчас, когда искусственному интеллекту уже более полувека, в 2012 году в области искусственного интеллекта наконец-то произошел прорыв в решении задачи визуального распознавания ImageNet Large Scale Visual Recognition Challenge (ILSVRC).
ILSVRC - это ежегодное соревнование по классификации изображений, в котором исследовательские группы оценивают свои алгоритмы на заданном наборе данных, а затем соревнуются в достижении более высокой точности при решении нескольких задач визуального распознавания. В 2010-2011 годах коэффициент ошибок победителей ILSVRC колебался в районе 26%. Затем, в 2012 году, команда из Университета Торонто представила глубокую нейронную сеть под названием AlexNet, которая изменила игру для проектов в области искусственного интеллекта и компьютерного зрения.
Глубокие нейронные сети произвели революцию в области искусственного интеллекта. AlexNet достигла уровня ошибок в 16,4%, и в последующие годы уровень ошибок в ILSRVC снизился до нескольких процентов; теперь глубокие нейронные сети являются золотым стандартом для задач распознавания изображений [11]. Эти достижения проложили путь для проникновения искусственного интеллекта в Кремниевую долину.
Искусственный интеллект уже органично вошел во многие аспекты нашей повседневной жизни. В последние годы искусственный интеллект добился огромного успеха во многих областях исследований. Игровые системы, такие как AlphaGo, используют подкрепляющее обучение для обучения себя новым стратегиям. Слуховые аппараты используют алгоритмы глубокого обучения для фильтрации окружающего шума. Эти технологии используются даже в системах обработки и перевода естественного языка, распознавания объектов и сопоставления образов, которые мы воспринимаем как должное в Google, Amazon, iTunes и подобных сервисах [11].
Эта тенденция не проявляет признаков замедления - существует множество мелких, повторяющихся задач, которые мы можем автоматизировать, чтобы освободить наше время. Хотя мы добились невероятных успехов в области искусственного интеллекта, мы все еще должны быть реалистами в отношении его применения для компьютерного зрения - пройдет еще много времени, прежде чем компьютеры смогут интерпретировать изображения так же хорошо, как это делает человек.
В краткосрочной перспективе более вероятно, что искусственный интеллект будет использоваться для дополнения и расширения человеческих возможностей.
Сектор здравоохранения является очевидным примером положительного взаимодействия человека и машины. Немного исторической перспективы позволяет предположить, что такие инновации, как протезирование коры головного мозга, станут мейнстримом. Эти футуристические устройства однажды станут такими же повсеместными и обычными, как технические кроссовки для бега или очки по рецепту.
Интерпретация цифровых изображений и видео пригодится во многих областях. Давайте рассмотрим некоторые из них:
Медицинская диагностика. Классификация изображений и распознавание образов широко используются для разработки программных систем, которые помогают врачам диагностировать опасные заболевания, такие как рак легких. Группа исследователей обучила систему искусственного интеллекта анализировать компьютерные томограммы онкологических пациентов. Алгоритм показал 95% точности, в то время как человек - только 65% [35].
Управление производством. Важно выявлять дефекты на производстве с максимальной точностью, но это непросто, поскольку часто требуется контроль в микромасштабе. Например, когда необходимо проверить нарезку резьбы сотен тысяч винтов. Система компьютерного зрения использует данные с камер в режиме реального времени и применяет алгоритмы ML для анализа потоков
данных. Таким образом, можно легко найти некачественные товары.
Розничная торговля. Amazon стала первой компанией, открывшей магазин, работающий без кассиров и кассовых машин [36]. Amazon Go оснащен сотнями камер компьютерного зрения. Эти устройства отслеживают, какие товары покупатели кладут в свои тележки. Камеры также могут отслеживать, возвращает ли покупатель товар на полку и убирает ли он его из виртуальной корзины. Плата с покупателей взимается через приложение Amazon Go, что избавляет их от необходимости стоять в очереди. Камеры также предотвращают кражи в магазинах и отсутствие товара.
Системы безопасности. Распознавание лиц используется на предприятиях, в школах, на заводах и, в принципе, везде, где важна безопасность. В школах США технология распознавания лиц применяется для выявления сексуальных преступников и других преступников, и снижения потенциальной угрозы. Такое программное обеспечение также может распознавать оружие для предотвращения актов насилия в школах. Между тем, некоторые авиакомпании используют распознавание лиц для идентификации и регистрации пассажиров, экономя время и снижая стоимость проверки билетов.
Охрана животных. Экологам выгодно использовать компьютерное зрение для получения данных о дикой природе, включая отслеживание перемещений редких видов, моделей их поведения и т.д., не беспокоя животных. CV повышает эффективность и точность анализа изображений для научных открытий.
Самоуправляемые автомобили. С помощью датчиков и камер автомобили научились распознавать бамперы, деревья, столбы и припаркованные автомобили вокруг себя. Компьютерное зрение позволяет им свободно перемещаться в окружающей среде без контроля со стороны человека.
Do'stlaringiz bilan baham: |