Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet74/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   70   71   72   73   74   75   76   77   ...   84
Bog'liq
Тёмные данные. 2021

Сбор данных в темноте 
Как мы видим, данные, идентифицирующие людей, можно анонимизировать в случаях, 
когда одни наборы данных связываются с другими, но есть возможность пойти еще дальше. 
Можно делать данные темными по мере их сбора и использования в расчетах, чтобы их 
вообще никто никогда не видел, но они по-прежнему были бы доступными для анализа. 
Ниже приведены некоторые из способов, которыми это можно сделать. 
Прежде всего это рандомизированный ответ — хорошо известная стратегия сбора 
конфиденциальной личной информации, такой как данные, касающиеся сексуального или 
нечестного поведения. Для примера предположим, что мы хотим знать, какая часть 
населения хотя бы раз в жизни совершала кражу. Прямой вопрос на эту тему в лучшем 
случае приведет к искаженным ответам, поскольку очевидно, что люди склонны лгать и 
отрицать. Вместо этого мы просим каждого человека подбросить монету, которую видит 
только он. Люди проинструктированы, что, если выпадает орел, они должны правдиво 
ответить «да» или «нет» на вопрос «Совершали ли вы когда-нибудь кражу?», а если 
выпадает решка, то они должны просто ответить «да». Теперь для любого человека 
положительный ответ означает, что мы не будем знать, украл ли он что-то на самом деле или 
это монета упала решкой вверх. Но мы узнаем нечто большее. Поскольку вероятность того, 
что выпадет орел, равна 1/2, мы будем знать, что общее число ответивших «нет» — только 
половина тех, кто действительно ничего не крал. Так что удвоение этого числа скажет нам о 


151 
том, сколько человек действительно не совершали краж. Вычитая это значение из общего 
числа, мы узнаем число тех, кому доводилось красть. 
Дэвид Хью-Джонс из Университета Восточной Англии в Великобритании использовал 
вариант этой идеи, чтобы исследовать честность в 15 странах5. Он просил людей подбросить 
монетку (сам не зная результата), суля вознаграждение $5, если выпадет орел. Если бы все 
сказали правду, можно было бы ожидать, что около половины людей сообщат, что выпал 
орел. Если доля утверждающих это больше половины, то, значит, люди лгут — и именно это 
Хью-Джонс использовал в качестве меры честности. 
Стратегия рандомизированного ответа — способ скрывать данные по мере их сбора. Есть 
также способы скрывать данные во время расчетов. Защищенное многостороннее 
вычисление — это способ сбора информации в группе, при котором никто из ее участников 
не имеет доступа к чужим данным. Вот простейший пример. Предположим, мы хотим узнать 
среднюю зарплату в группе проживающих рядом людей, но все они очень чувствительны к 
раскрытию информации о своем заработке. В этом случае я прошу каждого из них разбить 
его зарплату на два числа, a и b, так, чтобы их сумма равнялась зарплате. Таким образом, тот, 
кто зарабатывает £20 000, может разделить их на £19 000 и £1000, или на £10 351 и £9649, 
или на £2 и £19 998, или даже на £30 000 и –£10 000. Совершенно не важно, как именно люди 
разделят свою зарплату. Они могут использовать и положительные, и отрицательные числа, 
главное, чтобы выполнялось условие — эти числа должны складываться в зарплату. Затем 
все части a отправляются кому-то, кто складывает их и получает общее значение A. Все 
части b отправляются кому-то другому (важно, чтобы это был другой человек), который 
также складывает их, чтобы получить значение B. Последний шаг — просто сложить A и B и 
разделить на число человек, чтобы получить среднее значение. Обратите внимание, что на 
протяжении этого процесса никто не знает значений чужих зарплат. Даже те люди, которые 
складывают одни части, понятия не имеют, что представляют собой другие части. 
Защищенное многостороннее вычисление обеспечивает суммирования данных по популяции 
без какой-либо идентификации отдельных ее членов при работе со значениями в масштабе 
всей популяции или отдельной выборки. Но на самом деле можно пойти еще дальше. 
Гомоморфное вычисление позволяет шифровать данные, затемнять их и предоставлять кому 
бы то ни было для анализа, с тем чтобы он получил зашифрованный результат, не зная, что 
означают данные и результат. В этом случае вы — единственный, кто знает, как 
расшифровать значения данных и результат. История этого метода началась примерно с 2009 
г., когда была опубликована статья Крейга Джентри из исследовательского центра IBM 
Watson, но сама идея родом из 1970-х гг.6 Далее приведен несложный и выдуманный 
пример, иллюстрирующий эту идею: в реальных приложениях используются куда более 
сложные методы. 
Предположим, мы хотим рассчитать средний возраст членов некоего тайного общества, но 
вот беда: у нас нет даже калькулятора. Поэтому мы просим кого-нибудь со стороны, у кого 
он есть, сделать за нас расчеты, однако не хотим, чтобы этот человек видел значения 
возрастов (общество все-таки тайное). Чтобы сделать это, мы начинаем с «шифрования» 
возрастов, добавляя разные случайно выбранные числа к каждому из них. При этом мы 
вычисляем среднее значение всех случайных добавленных чисел. Теперь можно отправлять 
нашу шифровку — суммы исходных и случайных чисел — человеку, который взялся 
выполнить калькуляцию. Он складывает зашифрованные числа и отправляет нам их средние 
значения. Несложно догадаться, что если мы вычтем среднее значение случайных чисел из 
общего среднего, то получим средний возраст членов тайного общества. 
Понятно, что это очень упрощенный пример, и, как правило, требуется сделать нечто более 
сложное, чем найти среднее значение. 


152 
Теперь мы знаем, что данные могут быть собраны, не будучи увиденными теми, кто их 
собирает, и то, что данные можно анализировать так, чтобы осуществляющие анализ не 
понимали, что именно они анализируют. В более общем смысле эта глава переворачивает 
концепцию темных данных с ног на голову. Обычно темные данные являются источником 
проблем — они скрывают от нас то, что мы хотим знать, и могут привести к искаженным 
выводам и недопониманию. Но из этой главы мы узнали о методах, которые делают 
сокрытие данных чрезвычайно полезным и, как следствие, ведут к более точным оценкам, 
улучшают процесс принятия решений и даже защищают от преступников. 
Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   70   71   72   73   74   75   76   77   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish