Глава 9
Полезные темные данные
Переосмысление вопроса
Сокрытие данных
Может показаться, что темные данные — это сплошные проблемы и недостатки. Да,
ключевым посланием этой книги является призыв к осторожности. Но есть методы, с
помощью которых мы можем использовать темные данные в собственных интересах, при
условии, что хорошо понимаем свои действия и соблюдаем должную осмотрительность.
Другими словами, существуют методы, с помощью которых мы можем оседлать нашу
темную лошадку — направить неопределенность, присущую темным данным, против них же
самих, что позволит достичь лучшего понимания, делать более точные прогнозы, повысить
эффективность действий в различных областях и даже просто экономить деньги. Все это
становится возможным, если стратегически игнорировать часть данных и намеренно уводить
их в тень.
Исследование этой идеи мы начнем с того, что переформулируем некоторые уже знакомые
нам статистические идеи. Другими словами, мы посмотрим на них под новым углом, с точки
зрения активного сокрытия информации или данных. В начале главы мы по-новому взглянем
на те идеи, с которыми уже сталкивались в предыдущих главах, а затем познакомимся с
некоторыми новыми перспективными идеями, способными сделать статистические методы
работы с темными данными более совершенными.
Хорошую иллюстрацию нестандартного подхода к темным данным дает формирование
выборки из ограниченной совокупности. В главе 2 мы рассматривали методы создания
выборки для опроса и затрагивали тему недополученных ответов, но даже несмотря на это
опросы представляют собой один из наиболее популярных и простых способов обратить
темные данные себе на пользу. Обычно, когда говорят об опросах, то имеют в виду
использование значений (случайного) подмножества всех членов определенной группы
населения. Но альтернативный подход может состоять в том, чтобы формировать выборку,
специально предназначенную для помещения ее в область темных данных. В конце концов,
формирование 10%-ной выборки для последующего анализа эквивалентно формированию
90%-ной игнорируемой выборки. Идея заключается в том, что всякий раз при работе с
выборкой мы можем думать о ней либо как о выборе данных для исследования, либо как об
игнорировании оставшейся части совокупности и превращении ее в темные данные.
Обратите внимание, что случайный выбор (или по крайней мере «вероятностная выборка»)
здесь имеет решающее значение. Выбор любым другим способом может привести к
проблемам, уже описанным в этой книге. Использование случайного выбора означает, что
недостающие значения относятся к категориям NDD или SDD, а в главе 8 вы смогли
убедиться, что с этими типами темных данных можно справиться.
Do'stlaringiz bilan baham: |