117
Глава 8
Принцип работы с темными данными
Проливаем свет
Надежда!
Мы убедились, что темные данные могут возникать по многим причинам. Даже если мы
допускаем возможность ошибочности наших данных, то можем просто не осознавать, что
видим далеко не все. Мы также убедились, что подобное неведение чревато очень
серьезными последствиями: от финансовых крахов до гибели людей. Картина не самая
радужная.
Так что же делать? В этой главе рассматриваются способы, с помощью которых мы можем
заглянуть в тень и понять, что в ней скрыто, а также методы смягчения проблем, даже для
тех случаев, когда нет возможности точно определить, что именно пошло не так. Далее мы
познакомимся с идеями, инструментами и стратегиями, которые были разработаны
специально, чтобы помочь нам получить правильные ответы, даже когда вокруг туман
неопределенности. Основная часть главы посвящена ситуациям с отсутствием данных
(например, DD-тип 1: данные, о которых мы знаем, что они отсутствуют, DD-тип 2: данные,
о которых мы не знаем, что они отсутствуют, DD-тип 3: выборочные факты, DD-тип 4:
самоотбор), а в конце мы кратко обсудим данные, которые можно наблюдать, но которые все
равно могут вводить нас в заблуждение (например, DD-тип 10: ошибки измерения и
неопределенность, DD-тип 9: обобщение данных, DD-тип 7: данные, меняющиеся со
временем). Независимо от причины возникновения проблемы принципиальным условием ее
решения является бдительность: осознание того, что именно может пойти не так. Это
особенно актуально для ситуаций, когда сами данные не могут вам подсказать, что
произошло нечто неблагоприятное (например, DD-тип 15: экстраполяция за пределы ваших
данных, DD-тип 12: информационная асимметрия, DD-тип 8: неверно определяемые
данные). Надеюсь, что множество примеров и список DD-типов, приведенный в этой книге,
помогут вам сохранять это состояние бдительности, поскольку теперь вы знаете как
минимум некоторые вещи, за которыми нужен глаз да глаз.
Но, прежде чем мы углубимся в детали, необходимо подчеркнуть один крайне важный,
фундаментальный момент — появление темных данных указывает на небезупречность.
Понятно, что это относится к тем случаям, когда данные оказываются ошибочными, но это
применимо и к ситуациям с недостающими данными: само слово «недостающие» говорит о
том, что вы надеялись получить больше данных, но что-то пошло не так. Важно понимать,
что, хотя методы, которые мы разберем дальше, и помогают смягчить проблемы,
возникающие из-за неправильных и неполных данных, лучше всего сразу постараться, чтобы
данные были правильными и полными. Иначе говоря, необходимо сделать все возможное,
как при разработке стратегии сбора данных, так и в процессе их фактического сбора, чтобы
избежать ошибок и неполноты.
Легко сказать. А что, если это просто невозможно?
Do'stlaringiz bilan baham: