Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»

Download 1,71 Mb.

Pdf ko'rish

bet	71/84
Sana	04.11.2022
Hajmi	1,71 Mb.
	#860117
Turi	Руководство

1 ... 67 68 69 70 71 72 73 74 ... 84

Bog'liq
Тёмные данные. 2021

Репликация данных
Из этой книги вы уже знаете, как часто мы хотим оценить то, чего не было, или то, что не
можем наблюдать непосредственно. Например, мы пытаемся диагностировать заболевание,
основываясь исключительно на симптомах; или прогнозировать число пассажиров
нью-йоркского метро в следующем году, исходя из того, сколько человек совершило поездку
в этом; или понять, на что будет походить национальная экономика через десятилетие; или
предсказать, какой потенциальный заемщик допустит дефолт по кредиту, какой студент
преуспеет на курсе, какой соискатель будет более эффективно выполнять работу.
Общей особенностью этих ситуаций является то, что в нашем распоряжении есть данные,
описывающие ряд предыдущих случаев (людей, у которых были заболевания,
пассажиропоток прошлых лет или поведение реальных заемщиков). И для каждого из этих
случаев мы знаем исход (какое именно заболевание, сколько пассажиров, количество
дефолтов), а также описательные характеристики (симптомы, повторяющиеся маршруты,
информация из формы заявки). Мы можем использовать эти исторические данные для
моделирования взаимосвязи между описательными характеристиками и исходом. Такая
модель позволит прогнозировать исходы для других случаев исключительно на основе их
описательных характеристик.
Эта базовая структура — совокупность прошлых наблюдений, дающая нам и
характеристики, и исходы, которую мы используем для построения модели, связывающей
характеристики с результатом, чтобы в дальнейшем предсказывать новые исходы —
распространена повсеместно. Подобные модели часто называют прогностическими, хотя
«прогноз», возвращаясь к нашим примерам, может быть связан с неизвестным диагнозом, а
вовсе не обязательно с будущим пассажиропотоком. Будучи исключительно популярными,
прогностические модели стали предметом огромного числа исследований. На сегодня
разработано множество методов построения таких моделей с широким спектром
специфических свойств, и можно выбрать наилучший, соответствующий конкретной задаче.
Но какое отношение все это имеет к темным данным? Мы проиллюстрируем это на очень
простом примере и базовом прогностическом методе. Задача: спрогнозировать доход, исходя
только из одной переменной — возраста. Чтобы построить возможную модель, мы соберем
данные о парах значений «возраст/доход» на основе выборки. Самым простым методом
будет прогнозирование дохода нового человека, возраст которого нам известен, используя
значение дохода других людей того же возраста. Так, если мы хотим предсказать доход
кого-то в возрасте 26 лет и в нашей выборке есть один человек такого возраста, то в
простейшем случае мы используем его доход в качестве нашего прогноза. Если же в нашей

142
выборке есть и другие 26-летние, мы используем данные каждого из них, чтобы рассчитать
средний доход. В более общем смысле средние значения обеспечат лучший прогноз,
поскольку они менее подвержены случайным колебаниям. Это означает, что было бы
разумно включить также доходы 25-летних и 27-летних, поскольку они, вероятно, будут
близки к доходам 26-летних, а их включение увеличит размер выборки. Аналогичным
образом мы могли бы включить тех, кому 24 года и 28 лет и т.д., но при этом придавать
меньший вес их значениям по мере удаления от 26. Эта стратегия позволила бы нам сделать
прогноз, даже если в выборке нет ни одного человека в возрасте 26 лет.
Чтобы понять, как это связано с темными данными, давайте посмотрим на то же
исследование под другим углом. Стараясь спрогнозировать доход человека в возрасте 26 лет,
по сути, мы создаем новый набор данных путем случайной репликации значений в
существующей выборке. Мы делаем много копий 26-летних, чуть меньше копий тех, кому 25
и 27 лет, еще меньше — тех, кому 24 и 28, и т.д. Как будто у нас изначально была гораздо
более широкая выборка, основную часть которой мы по какой-то причине просто не видели.
Усреднение доходов по всем реплицированным даст соответствующую оценку доходов
людей в возрасте 26 лет.
Этот пример нагляден, но в реальной жизни обычно все несколько сложнее. Как правило,
вместо одной описательной характеристики, такой как возраст в нашем примере, мы будем
иметь дело с несколькими или даже с множеством характеристик. Например, мы можем
охарактеризовать пациентов по их возрасту, росту, весу, полу, систолическому и
диастолическому артериальному давлению, пульсу в состоянии покоя, а также по ряду
симптомов и результатов медицинских тестов, чтобы оценить вероятность выздоровления
нового пациента с определенным набором значений. Как и в предыдущем примере мы
создадим новый набор данных, реплицирующий людей таким образом, что у нас будет
больше копий тех, кто имеет характеристики, очень схожие с характеристиками
интересующего нас человека, и чем меньше будет это сходство, тем меньше будет и число
копий. Люди, которые полностью отличаются по всем характеристикам от нашего пациента,
могут не воспроизводиться вовсе. После того, как собраны все реплицированные данные, мы
просто вычисляем долю тех, кто выздоровел, и принимаем это значение за предполагаемую
вероятность выздоровления.
Эта базовая идея стратегической репликации данных в случаях, когда требуется получить
намного больший и, соответственно, более релевантный набор данных, используется и иным
образом. В целях упрощения мы рассмотрим алгоритмы машинного обучения для
распределения объектов по классам, как в предыдущем диагностическом примере или как в
случае вопроса о том, может ли подавший заявку на ипотеку допустить дефолт по платежам
(то есть принадлежать одному из двух классов: «да» или «нет»). Но теперь мы рассмотрим
идеи, которые используются для повышения эффективности таких алгоритмов.
Как правило, алгоритмы для создания подобных диагностических классификаций могут
ошибаться: симптомы часто бывают неоднозначными, а у молодого кандидата на ипотеку
может быть очень короткая история финансовых транзакций. Один из способов улучшить
такой алгоритм состоит в том, чтобы изучить случаи, которые он ранее неверно
классифицировал, и посмотреть, сможем ли мы каким-то образом изменить или
скорректировать его, чтобы прогнозы стали точнее. Метод, который позволяет сделать это,
— создание искусственных данных по следующей схеме. Мы начинаем с определения
пациентов или кандидатов, по которым был сделан неправильный прогноз, и добавляем к
данным дополнительные копии этих случаев, возможно, огромное число дополнительных
копий. Теперь, когда мы настроим параметры нашей модели для классификации этого
расширенного набора данных, она будет вынуждена уделять больше внимания случаям, в
которых ранее ошибалась. Чтобы лучше понять это, представьте себе экстремальную

143
ситуацию, в которой ранее неверно классифицированный случай был реплицирован 99 раз и
теперь существует 100 абсолютно идентичных его копий. Ранее наша классификация
выдавала только один ошибочный случай, что было незначительным, но теперь этих случаев
стало в 100 раз больше. Эффективность метода классификации значительно улучшится, если
у нас получится настроить его так, чтобы он мог теперь правильно оценивать этот случай (и
его 99 копий).
Иначе говоря, изменение алгоритма путем применения его к этому новому набору данных —
(где исходные данные дополнены большим количеством ошибочно классифицированных
копий — позволяет получить новую версию алгоритма, которая будет точнее
классифицировать те данные, где ранее допускалась ошибка. Идея состоит в том, чтобы
создавать искусственные данные, смещающие «внимание» алгоритма в нужном
направлении. Или, по-другому, использовать данные, которые могли бы быть.
Процедура, основанная на этой идее, называется бустингом, или усилением. Когда-то она
была революционной, но сегодня широко используется в машинном обучении. На момент
написания книги версии алгоритмов бустинга являются лидерами в соревнованиях по
машинному обучению, проводимых такими организациями, как Kaggle (например, особенно
хорошо показывает себя версия алгоритма, называемая экстремальный градиентный
бустинг.)
В то время как бустинг сосредоточен на тех случаях, которые ранее были неверно
классифицированы и требуют дополнительного внимания, для определения точности оценок
был разработан другой подход к использованию искусственных наборов данных. Речь идет о
методе бутстреппинга, изобретенном американским статистиком Брэдом Эфроном. (Надо
признать, статистики и специалисты по машинному обучению неплохо поднаторели в
придумывании ярких имен, раскрывающих суть концепций.)
Бутстреппинг работает следующим образом. Часто нашей целью является составление
общего сводного отчета по некоторой совокупности чисел (скажем, нам может
потребоваться среднее значение), но иногда невозможно определить каждое отдельно взятое
число. Например, нам нужно узнать средний возраст людей в стране, но людей в стране
слишком много, чтобы мы могли опросить их всех. Как мы уже видели ранее, часто само
понятие всеохватывающего измерения бессмысленно — мы не можем, к примеру,
многократно измерять массу добываемой руды, так как смысл ее добычи в переработке.
Решение заключается в том, чтобы сформировать выборку — просто спросить некоторых
людей об их возрасте или взвесить несколько партий добытой руды, — а затем использовать
среднее значение этой выборки в качестве нашей оценки.
Средние показатели выборки безусловно полезны — они дают нам общее представление о
значении, но было бы неразумным ожидать, что они окажутся абсолютно точными. В конце
концов, если мы возьмем другую выборку данных, то, вероятно, получим иной результат.
Можно, конечно, ожидать, что он не будет слишком отличаться от первого, но рассчитывать
на их идентичность не стоит. Это означает, что кроме среднего значения хотелось бы
получить оценку степени его точности. Хотелось бы знать, насколько велик разброс средних
значений, которые мы получим, сформировав разные выборки, и насколько далеки от
истинного значения наши средние показатели выборки.
Чтобы найти показатель дисперсии для средних значений, достаточно использовать
несложную статистическую теорию. Однако для других описаний и сводок данных это будет
куда сложнее, особенно если наши вычисления выходят далеко за рамки простого
определения среднего. Но и здесь синтетические темные данные могут снова прийти нам на
помощь.

144
Если бы мы могли сформировать много выборок (например, как в случае с десятикратным
подбрасыванием монеты), проблемы бы не возникло: мы бы просто сделали это, привели
нашу модель в соответствие с каждой выборкой и посмотрели бы, насколько различаются
результаты. Но, к сожалению, у нас есть только одна выборка.
Идея Брэда Эфрона заключалась в том, чтобы принять единственную имеющуюся у нас
выборку за всю совокупность. Затем, продолжая идею извлечения выборки из совокупности,
мы могли бы извлечь подвыборку из нашей выборки (каждая подвыборка должна иметь тот
же размер, что и исходная выборка, благодаря многократному включению в нее каждого
значения). Фактически точно так же, как мы могли бы извлечь много выборок из
генеральной совокупности, мы можем извлечь много подвыборок из одной имеющейся у нас
выборки. Принципиальная разница состоит в том, что мы действительно можем
сформировать такие подвыборки. К каждой из них можно применить соответствующую
модель, например оценить среднее значение, а затем посмотреть, насколько сильно
различаются эти значения. Базовая идея состоит в том, чтобы смоделировать взаимосвязь
между всей совокупностью и фактической имеющейся выборкой с помощью вычисления
отношений между выборкой и подвыборкой. Это как если бы мы создавали искусственные
копии выборки, раскрывая большое количество данных, которые до сих пор было скрыто.
Понятие «бутстреппинг» означает переход от выборки к подвыборке точно так же, как мы
перемещаемся от генеральной совокупности к выборке.
Из этих примеров становится очевидной одна вещь: использование искусственных данных
для облегчения прогнозирования — задача весьма трудоемкая. Создание копий соседних
значений, репликация случаев ошибочной классификации, формирование нескольких
(зачастую сотен и более) подвыборок данных исключают несерьезный подход. Или как
минимум возможность проделать все это вручную. К счастью, мы живем в мире
компьютеров. Они просто созданы для проведения повторяющихся вычислений за доли
секунды. Вспомните миллион циклов, в каждом из которых было 10 бросков монеты.
Методы создания темных данных для использования их в наших интересах, описанные
здесь, во многом являются детищем компьютерного века. Выше я употребил слово
«революционный» — это не преувеличение.

Download 1,71 Mb.

Do'stlaringiz bilan baham:

1 ... 67 68 69 70 71 72 73 74 ... 84