Подведение итогов
Я не погрешу против истины, если скажу, что в последние столетия бурному развитию
цивилизации сопутствует прогресс науки о данных. В конце концов, слово «данные» почти
синонимично слову «факты», а именно на фактах базируется технический прогресс и
просвещение, которые за последние века привели к росту экономики и развитию общества.
Если основой современного промышленного развития является ископаемое топливо, то
данные сегодня — это «новая нефть». Так же, как это было некогда с нефтью, те, кто может
эффективно контролировать данные и манипулировать ими, делают сегодня огромные
состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные
необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с
загрязнением информации темными данными является примером такой очистки.
Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть,
одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более
того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника
— по своей природе они могут копироваться и воспроизводиться неограниченное число раз.
157
И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить
то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как
неприкосновенность частной жизни и конфиденциальность, которые просто не имеют
аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый
товар. Именно поэтому правительства прилагают столько усилий для решения этических
вопросов, связанных с управлением данными.
В значительной степени революция данных была связана с данными наблюдений. В главе 2
мы познакомились с этим видом данных, описывающих естественную эволюцию процессов
без явного вмешательства человека, и, как было показано, данные наблюдений особенно
уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с
экспериментальными данными, подразумевающими, что параметры воздействующих
факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются
автоматическими системами сбора информации и являются побочным эффектом различных
административных операций.
Классическим примером того, какие идеи можно извлечь из данных нового типа, служит
проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента
Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для
построения индексов инфляции. На основе этого открытого источника данных они показали,
что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно
совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение
между уровнями инфляции по онлайн-ценам и по официальной статистике»2. Простого
объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины
подтверждают подозрение, что правительство манипулирует официальной статистикой по
инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно
отклоняется от официальных оценок».
Кавалло и его коллеги полностью отказались от традиционной процедуры сбора данных для
расчета индексов инфляции. Из главы 3 вам известно, что она предполагает работу групп
исследователей, посещающих магазины и собирающих данные с ценников на полках. Это не
только дорого, но и медленно. В отличие от классического подхода, проект «Миллиард цен»
позволяет обновлять индекс инфляции ежедневно.
Бесспорно, это огромный успех в сфере больших данных. Но даже здесь все может оказаться
не столь радужным, как выглядит на первый взгляд. В частности, Кавалло и Ригобон
говорят: «Мы… фокусируемся в основном на крупных многоканальных розничных сетях и
не берем в расчет магазины, торгующие только онлайн (такие, как Amazon.com)»3. Они
отмечают, что онлайн-цены охватывают гораздо меньший набор ритейлеров и категорий
продуктов, чем традиционный подход к ценовым индексам, и указывают на необходимость
выбора, с каких именно сайтов брать данные, а это прямой путь к появлению темных данных
в виде множества небольших онлайн-магазинов. Более того, онлайн-цены являются всего
лишь ценами и не показывают объемы продаж.
Дело не в том, что все это — непреодолимые препятствия. Понимая их, мы можем работать
над их преодолением. Но проблема темных данных все равно останется, поскольку само
понятие инфляции, используемое в рамках проекта «Миллиард цен», несколько отличается
от традиционных определений.
Существуют и другие, возможно, более серьезные проблемы, связанные с сетевыми
данными. Например, алгоритм поиска Google постоянно обновляется, становясь все более
эффективным, но детали этих изменений остаются непрозрачными для всех, кроме
разработчиков. Например, к последним изменениям относятся введение показателя качества
веб-страницы при ранжировании, понижение рейтинга сайтов, которые считаются
158
манипулятивными, обработка запросов на естественном языке для лучшего понимания их
цели, повышение рейтинга страниц, оптимизированных для мобильных устройств, и
идентификация сайтов, нарушающих правила Google. Все эти изменения кажутся разумными
и полезными, но дело в том, что они постоянно меняют природу собираемых данных; проще
говоря, затруднительно сравнивать данные, собранные до и после изменения (DD-тип 7:
данные, меняющиеся со временем). В частности, показатели экономического и социального
благополучия могут меняться не потому, что изменилась базовая реальность, а потому, что
изменились собираемые данные об этой реальности — так называемый сдвиг показателей.
Именно темные данные лежат в основе этих изменений.
Мы имели возможность убедиться, что целая череда успешных историй основана на
связывании наборов данных, их комбинировании, дублировании и объединении данных из
разных источников. Потенциальная мощь таких методов несомненна, поскольку разные
источники, вероятно, содержат разную информацию о тех или иных аспектах изучаемого
предмета. Чаще всего этим предметом оказываются люди, и очевидно, что такие проекты
могут быть чрезвычайно полезны, например для укрепления здоровья граждан и повышения
благополучия общества. Но риски темных данных при связывании баз остаются всегда.
Генеральные совокупности в базах данных часто не совпадают полностью (одна может
включать какие-то случаи, другая нет), а во время сопоставления могут возникнуть
несоответствия в силу различных способов хранения данных (является ли Джон Смит тем же
человеком, что и Джон В. Смит или Дж. В. Смит?). Не говоря уже о дубликатах записей.
Эта книга в первую очередь о том, как темные данные водят за нос людей (а во вторую —
что людям с этим делать). Но проблема несколько шире: темные данные могут вводить в
заблуждение не только людей, но и машины. По мере того, как машинное обучение и
искусственный интеллект становятся все более распространенными, следует ожидать, что
будет появляться все больше сообщений о том, как темные данные обманули машину или
даже привели к ее аварии. В области машинного обучения и компьютерного зрения
существует концепция, которую иногда называют «Умный Ганс». Вот поучительная история
ее появления.
Умным Гансом звали коня, принадлежавшего школьному учителю арифметики Вильгельму
фон Остену. Умный Ганс был настолько умным, что умел складывать, вычитать, умножать и
делить числа, определять время и даже читать и понимать по-немецки. Фон Остен задавал
Гансу вопрос (письменно или устно), и, поскольку Ганс не мог ни говорить, ни писать
(видимо, для него это было не так умно), он отвечал, постукивая копытом нужное
количество раз.
В 1907 г. этот феномен исследовал биолог и психолог Оскар Пфунгст. По его выводу, хотя
никаких уловок со стороны хозяина не предпринималось, сказать, что Ганс производит
вычисления, было нельзя. Смышленый конь улавливал подсознательные сигналы своего
хозяина, который и производил вычисления. Интересно, что сам фон Остен не отдавал себе
отчета в том, что подает какие-то сигналы. В этом есть определенное сходство с рассказами
игроков в покер.
Для нас важно, что Умный Ганс на самом деле не отвечал на те вопросы, на которые, как
полагали зрители, он отвечает. То же самое может случиться и с машинами: их анализ,
классификация, решения могут основываться на непредвиденных аспектах входных данных,
в том числе на таких, о которых вы даже не подозреваете. В некоторых случаях «едва
различимые незначительные отклонения для правильно классифицированного входного
изображения [могут означать], что оно перестает классифицироваться правильным
образом»4. Используя эту слабость автоматических алгоритмов, исследователи из
Университета Карнеги–Меллона разработали фигурную оправу для очков, которая для нас
выглядит привычно, но при этом начисто сбивает с толку искусственный интеллект и не
159
позволяет ему определить носителя очков5. К сожалению, исследователи обнаружили, что
путаница не ограничивается конкретным алгоритмом нейронной сети, а представляет собой
общую проблему для этого класса алгоритмов. Очевидно, что машины видят вещи
совершенно иначе, чем мы, и также ясно, что их видение — это не то, что нас интересует.
Пути возникновения темных данных неисчислимы, как вы смогли убедиться, прочитав эту
книгу. Они могут появляться и случайно, и преднамеренно: иногда люди пытаются скрыть
правду, представляя вещи так, как им выгодно. Выявить это помогает бдительность, а также
весьма полезная стратегия — взгляд под другим углом. Пищу можно охарактеризовать как
«обезжиренную на 90%», и это звучит соблазнительно, но если на упаковке будет написано
«жирность 10%», то это уже не так аппетитно. Аналогичным образом выбор лекарства или
образа жизни может быть описан как снижение риска заражения каким-либо заболеванием
вдвое. Но если цифры показывают, что сокращение вдвое уменьшило риск с 2 до 1%, то вам
это будет уже не так интересно: оба значения можно считать несущественными. Этот
пример, возможно, станет еще ярче, если пролить свет на темные данные, содержащиеся в
нем, перевернув их: повышение шансов избежать болезни с 98 до 99% вряд ли привлечет
хоть одного покупателя, если речь идет о лекарстве.
Наиболее очевидным источником темных данных является будущее. Несмотря на заявления
различных провидцев, ясновидящих и пророков, будущее — это территория неизвестного,
где неожиданные события всегда могут вмешаться и сбить вас с пути, по которому вы
намеревались идти. Бессчетное число разорений в сфере бизнеса служит тому
доказательством. Хедж-фонд Long Term Capital Management (LTCM) уже испытывал
сложности, когда на него внезапно обрушился российский дефолт по облигациям в
национальной валюте в 1998 г. Потенциальный коллапс LTCM с возможной цепной
реакцией, которая бы вызвала огромные убытки в финансовой сфере, стал причиной
масштабной операции по его спасению. Точно так же Swissair, ранее считавшаяся очень
надежной компанией, начала «агрессивную стратегию заимствований и поглощений» в
конце 1990-х гг., пока теракты 2001 г. в Нью-Йорке не обрушили ее рыночную стоимость,
что не позволило компании справиться с долговой нагрузкой.
Последний в этой книге пример можно назвать демонстрацией эффекта темных данных в
буквальном смысле. В конце 1970-х — начале 1980-х гг. произошла так называемая война
форматов видеозаписи между Betamax от Sony и VHS от JVC. В принципе, Betamax был
превосходной технологией, с лучшим разрешением и более качественным изображением, но
победил VHS. Техническое превосходство Betamax не смогло перевесить его большую
стоимость и ограничение времени записи одним часом. Кассеты же VHS позволяли делать
двухчасовые записи. Проблема заключалась в том, что голливудские фильмы, как правило,
длились более одного часа, а это означало, что часть важных данных невозможно было
записать. Sony отреагировала на эту проблему, разработав свою технологию увеличения
времени записи, но к тому времени, когда она стала доступна, формат VHS уже завоевал
рынок.
Мы входим в дивный новый мир. Возможности, которые открываются перед нами благодаря
углублению понимания и созданию надежных прогнозов на основе данных, ограничены
исключительно нашим воображением. Однако мы должны действовать осторожно. Каждый
шаг на этом пути чреват опасностями. Как я отметил в начале этой книги, мы не знаем и не
можем знать всего о данных, которые анализируем, о том, как они были собраны или откуда
поступили. И что еще хуже, мы не знаем, что чего-то не знаем. Поскольку то, чего мы не
знаем, может быть критически важным, один неосторожный шаг способен сделать наши
представления неверными, а прогнозы — ошибочными со всеми вытекающими
последствиями для здоровья, финансов и благополучия в целом. Энтузиазм в отношении
науки о данных полностью оправдан, но его следует сдерживать разумной осторожностью.
160
Единственное решение состоит в том, чтобы осознать риски и неукоснительно проявлять
бдительность.
Помните старый анекдот про пьяного, который искал ночью свои ключи под фонарем не
потому, что потерял их там, а потому, что это было единственное освещенное место? То же
самое часто происходит в отношении темных данных. Исследователи, аналитики и все, кто
пытается извлечь какой-то смысл из данных, похожи на этого пьяного, если ограничивают
себя имеющимися данными. Не понимая, как именно возникли данные и что именно может
отсутствовать, вы сами ставите себя в положение того, кто ищет только там, где светло, а
вовсе не там, где могут быть ответы. Но концепция темных данных выходит за рамки
простого представления о незарегистрированных данных. Она также выходит далеко за
пределы различий между известными неизвестными и неизвестными неизвестными. Да, все
это темные данные, но также к ним относятся и данные, которые, возможно, никогда не
могли существовать, или данные, которые мы намеренно фальсифицировали. Концепция
темных данных переворачивает традиционный взгляд на вещи и ведет к углублению
понимания явлений, встраивая наблюдаемые данные в более широкий контекст, частью
которого и является.
Я очень надеюсь, что примеры, собранные мной в этой книге, дадут вам начальное
представление о рисках, которые несут темные данные, и о том, что, где и какими методами
нужно искать, а затем исправлять. Я также надеюсь, что вы сумеете найти свои способы
расширить маленькое пятно света от фонаря и осветить окрестности. И еще я надеюсь, что
книга поможет вам распознавать ситуации, когда имеет смысл самому стратегически
отбросить тень, чтобы прийти через это к новому пониманию нашего мира.
Do'stlaringiz bilan baham: |