Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»


Частная жизнь и защита конфиденциальности



Download 1,71 Mb.
Pdf ko'rish
bet73/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   69   70   71   72   73   74   75   76   ...   84
Bog'liq
Тёмные данные. 2021

Частная жизнь и защита конфиденциальности 
До этого момента мы старались взглянуть на существующие статистические процедуры и 
принципы работы с наблюдаемыми данными с точки зрения темных данных. Такая смена 
перспективы нередко приводит к новому пониманию. Но есть и другие способы 
использования темных данных. На самом деле, как мы сейчас увидим, сокрытие данных 
является центральным элементом эффективного функционирования современного общества: 
многие из наших обычных повседневных действий были бы просто невозможны без 
сокрытия данных. 


146 
В главах 6 и 7 мы говорили о том, как мошенники скрывают информацию. Их цель — 
создать искаженное впечатление о происходящем: заставить вас поверить, что вам будет 
выгодна транзакция, тогда как на самом деле вы на ней потеряете, или скрыть правду о 
результатах эксперимента. Шпионы делают то же самое. Их настоящая цель, личность и, 
конечно же, реальное поведение скрыты от государств и корпораций. Шпионы не хотят, 
чтобы противник узнал об их замыслах, поэтому они стараются скрыть свою деятельность. В 
то же время шпионы пытаются добыть и передать своему руководству данные, которые 
противная сторона пытается сохранить в секрете. Но у всего есть обратная сторона и более 
высокий уровень осмысления, а уж тем более у шпионажа. Так, утечка определенных данных 
может быть выгодна государству, чтобы противник узнал ответы на свои вопросы и 
успокоился. В этот момент на сцене появляются двойные и тройные агенты, и наступает 
полная неразбериха, что от кого скрыто. Все моментально становится очень сложным! 
Но мошенники и шпионы не единственные, кто все время что-нибудь да скрывает. 
Подумайте: возможно, вы сами не заинтересованы в том, чтобы ваша медицинская или 
финансовая история стала достоянием общественности. Вас может смутить, если некоторые 
аспекты вашей жизни станут общеизвестными. В этом суть частной жизни, и статья 12 
Всеобщей декларации прав человека не зря начинается следующими словами: «Никто не 
может подвергаться произвольному вмешательству в его личную и семейную жизнь…» 
Есть разные определения частной жизни. Это и право на уединение, и право на защиту от 
вмешательства государства, и возможность избирательно раскрывать себя миру. Все эти 
определения прекрасны, но они носят слишком общий характер, ведь конфиденциальность и 
сокрытие данных — вещи вполне конкретные. Вы используете секретные пароли для защиты 
своего банковского счета, учетных записей в социальных сетях, доступа к телефону, 
ноутбуку и т.д. Это означает как минимум две вещи: во-первых, ваши данные защищены от 
тех, от кого вы сами хотите их защитить, и, во-вторых, крайне важно уметь создать хороший 
пароль. 
Вы не поверите, но даже сейчас многие используют в качестве паролей по умолчанию такие 
последовательности, как password, 123456 и admin. (Самое время вспомнить анекдот с 
бородой про человека, который изменил все свои пароли на «неверный», чтобы система, 
когда он забудет их, сама подсказала: «Пароль неверный».) Это часто предустановленные на 
устройствах пароли, которые, по сути, являются тестовыми и должны прекращать свое 
существование после продажи носителя. Хакеры обычно начинают с просмотра именно этих 
паролей по умолчанию. Более общая базовая стратегия взлома паролей состоит в том, чтобы 
просто попробовать миллиарды различных комбинаций символов, что при наличии мощного 
компьютера может быть выполнено со скоростью полмиллиона комбинаций в секунду (здесь 
становится понятным, что прогон миллиона симуляций подбрасывания монеты занял у меня 
считаные секунды). Если у хакера есть хоть какая-то информация о вашем пароле (например, 
что он состоит только из цифр), то это значительно ускоряет поиск. Вот почему 
рекомендуется использовать в пароле буквы в обоих регистрах, а также цифры и 
специальные символы. Это значительно увеличивает словарь символов и создает намного 
больше возможных вариантов, которые хакер должен испробовать. 10 возможных цифр и 
пароль длиной восемь символов создают 108 вариантов, или 100 млн возможных паролей. 
Тестирование их со скоростью полмиллиона в секунду означает, что пароль может быть 
взломан максимум за 200 секунд, или три с небольшим минуты. В то же время, используя 10 
цифр, 26 букв английского алфавита в обоих регистрах, а также, скажем, 12 специальных 
символов, вы увеличиваете число возможных паролей длиной восемь символов до 748, что 
составляет около 9 × 1014. При скорости полмиллиона комбинаций в секунду на их 
прохождение потребуется около 28,5 млн лет. Можно спокойно вздохнуть! 


147 
Шпионаж и пароли тесно связаны с секретными кодами и криптографией. Это инструменты 
для обмена информацией между двумя людьми, которые не позволяют посторонним 
понимать ее и оставляют их в неведении. На самом деле шифрование используется не только 
в сфере шпионажа. Например, коммерческие организации часто обмениваются 
конфиденциальной информацией, банки должны точно знать, что никто не перехватит их 
сообщения и не перенаправит транзакции, да и вы сами должны быть уверены, что ваша 
электронная корреспонденция будет прочитана только целевыми получателями и никто не 
сможет взломать систему обмена информацией. 
Криптография, или наука шифрования, стала передовой математической дисциплиной. Ее 
современные методы часто основаны на шифровании с открытым ключом. Это элегантное 
математическое решение, в котором используются два числовых ключа, один из которых 
позволяет людям шифровать сообщения, а другой — расшифровывать их. Первый ключ 
может быть обнародован, поэтому закодировать сообщение может любой, а вот второй 
остается в секрете, и только тот, кто имеет к нему доступ, может декодировать сообщения. 
Общественные, социальные и этические проблемы, связанные с криптографией, могут быть 
очень серьезными. С одной стороны, шифрование обеспечивает безопасность законных 
транзакций, но с другой — оно используется и для защиты незаконных транзакций 
криминального или террористического характера. Apple Inc. получила ряд запросов от судов 
США с требованием раскрыть информацию на заблокированных iPhone. В одном случае 
ФБР попросило Apple разблокировать телефон, принадлежащий одному из преступников, 
устроивших теракт в Сан-Бернардино, штат Калифорния, в декабре 2015 г., в результате 
которого погибли 14 человек. Но такой запрос ставит нас перед серьезной проблемой: в 
какой степени личная конфиденциальность должна быть священной. В этом конкретном 
случае Apple отказалась выполнять запрос, было назначено слушание, но до того, как оно 
состоялось, ФБР нашло некое третье лицо, которое имело доступ к телефону и 
разблокировало его. Запрос был отозван, но история о конфиденциальности, секретности и 
доступе к темным данным на мобильных телефонах далека от своего завершения. 
Национальные статистические службы являются государственными органами, которые 
собирают и сопоставляют данные по всему населению страны, а затем анализируют с целью 
разработки на их основе эффективной социальной и государственной политики. Такие 
органы должны хранить личные данные в секрете, допуская публикацию лишь 
статистических сводок. Например, вы ожидаете, что национальная статистическая служба 
вашей страны не будет разглашать размер вашей зарплаты или историю болезни, сообщая 
только о распределении зарплат и количестве людей, у которых диагностированы те или 
иные заболевания. Такая политика может привести к деликатным проблемам 
конфиденциальности. В частности, если выдается информация об относительно небольшой 
группе людей, возможно, окажется несложным идентифицировать лиц в этой группе. 
Например, публикация информации о мужчинах в возрасте от 50 до 55 лет с указанием 
почтового индекса, в зоне которого они проживают, может существенно сузить поиск. В 
самом худшем случае может быть всего один человек, который отвечает всем условиям, 
определяющим группу. 
Из-за этих и подобных им деликатных вопросов национальные статистические службы и 
другие органы государственной власти разработали инструменты для сохранения данных в 
темноте, чтобы можно было распространять информацию о населении без нанесения ущерба 
конфиденциальности отдельно взятого человека. Например, если перекрестная 
классификация критериев выдает небольшой список людей (скажем, тех, кто живет в 
определенном городе и зарабатывает более £1 млн в год), то эту ячейку перекрестной 
классификации можно объединить с соседними ячейками (с теми, кто живет в близлежащих 
городах или зарабатывает более £100 000 в год). 


148 
Другая стратегия, которую используют статистические службы для сокрытия данных, 
состоит в их искажении случайным образом. Например, небольшое число, выбранное 
случайным образом, может добавляться к каждому значению таблицы так, чтобы ее можно 
было опубликовать без разглашения точных чисел, но сохранить общую картину. 
Существуют способы сохранения требуемых аспектов (например, общих средних значений, 
распределений чисел в разных группах) точными, хотя все составляющие совокупность 
числа изменяются. 
Третья стратегия — моделирование распределения и характеристик истинных данных с 
последующим использованием модели для генерации синтетических данных с теми же 
свойствами, подобно тому, как это происходит при симуляции. Например, мы можем 
рассчитать средний возраст и разброс по возрастам в популяции, а также общую структуру 
распределения по возрасту, а затем сгенерировать искусственные данные, которые имеют 
точно такую же структуру среднего, разброса и распределения. Таким образом, реальные 
данные полностью заменяются, но (до определенного момента) сводки, сгенерированные из 
синтетических данных, совпадают с реальными. 
Данные можно также анонимизировать. Это означает, что информация, которая служит для 
идентификации людей, уничтожается. Например, из записей удаляются имена, адреса и 
номера социального страхования. Недостатком анонимизации является то, что потенциал 
повторной идентификации, позволяющей установить, кому принадлежит конкретная запись, 
начисто теряется. Так, в записях клинических испытаний анонимность может быть 
сохранена путем удаления имен и адресов, но если позднее обнаруживается, что некоторые 
пациенты подвергаются серьезному риску, то возникает необходимость вновь 
идентифицировать их. Кроме того, для многих организаций ведение записей, позволяющих 
идентифицировать людей, имеет решающее значение для деятельности. 
В таких случаях можно использовать так называемую псевдонимизацию. Вместо того, чтобы 
просто уничтожать идентифицирующую информацию, ее заменяют кодом. Например, имена 
могут быть заменены случайно выбранным целым числом (замена имени Джеймс Бонд на 
число 007 не будет случайной, а вот имени Дэвид Хэнд на число 665347 — вполне). Если 
где-то хранится файл, который сопоставляет идентификаторы с кодами, то в случае 
необходимости всегда может быть найдена личность носителя кода. 
Формальные определения анонимизации, используемые статистическими службами, обычно 
содержат пункт, в котором говорится, что процесс анонимизации должен «защищать людей 
от повторной идентификации любыми разумными средствами». Выражение «разумные 
средства» возникает здесь оттого, что идеальная анонимность редко может быть 
гарантирована, поскольку одни наборы данных могут быть связаны с другими. В главе 3 мы 
уже видели, что связывание наборов данных имеет огромный потенциал для улучшения 
жизни людей. Например, связь моделей закупки продуктов питания с данными о здоровье 
даст ценную для профилактики болезней информацию. Связывание данных о школьном 
образовании с данными по занятости и доходам из налоговых органов предоставит 
чрезвычайно полезную информацию для разработки государственной политики. Подобное 
связывание наборов данных не является чем-то гипотетическим, оно уже проводится 
широким кругом организаций по всему миру. Но подобные проекты могут быть успешными 
только в том случае, если люди, данные которых включены в базы данных, будут уверены, 
что их частная жизнь и конфиденциальность не нарушены. Британская сеть исследования 
административных данных (ADRN) преодолела риски конфиденциальности, используя 
метод «доверенной третьей стороны» для связывания данных. Этот метод означает, что ни 
один конкретный владелец данных не имеет ни идентификаторов, ни связанных данных2. 
Для двух наборов данных система работает следующим образом: 


149 

Каждый менеджер баз данных создает уникальные идентификаторы для каждой 
записи в своем наборе данных. 

Эти идентификаторы и связанная с ними идентифицирующая информация (например, 
имена) отправляются «доверенной третьей стороне» по защищенным ссылкам, каждая 
из которых соответствует конкретному идентификатору. 

Для каждой записи создается связывающий идентификатор. 

Файлы, содержащие связывающий идентификатор и уникальные идентификаторы для 
каждой записи, отправляются обратно владельцам базы данных. 

Владельцы базы данных добавляют связывающий идентификатор к записям в своем 
наборе данных. 

Наконец, каждый владелец базы данных извлекает идентификационную информацию 
(например, имена) и отправляет записи и их связывающие идентификаторы 
исследователю, который может связывать наборы данных, используя связывающий 
идентификатор, не зная самих идентификационных данных. 
Этот процесс кажется несколько сложным, но на деле он очень эффективен для сокрытия 
идентификаторов при связывании записей из двух наборов данных. Хотя такие проекты по 
связыванию данных могут быть чрезвычайно ценными для общества, они всегда несут риски 
нежелательной идентификации, которые могут быть значительно увеличены, если данные 
будут связаны с внешними наборами данных. (Это было невозможно в случае ADRN, 
поскольку весь анализ проводился в защищенных средах без доступа к другим источникам 
данных.) Эта дилемма хорошо иллюстрируется одним известным случаем. 
В 1997 г. Комиссия по страхованию штата Массачусетс (GIC) опубликовала больничные 
данные для исследователей, чтобы они могли разработать улучшенные стратегии 
здравоохранения. Тогдашний губернатор Массачусетса Уильям Уэлд заверил жителей штата 
в том, что их конфиденциальность защищена, заявив, что GIC удалила личные 
идентификаторы из данных. 
Возможность связывания данных, однако, не была рассмотрена. Латания Суини была в то 
время аспирантом в Массачусетском технологическом институте, где занималась 
«вычислительным контролем идентификации» — отраслью информатики, связанной с 
инструментами и методами сохранения данных в темноте. Суини задалась вопросом, 
возможно ли, вопреки утверждению Уэлда, идентифицировать людей по данным GIC. В 
частности, она решила поискать данные самого Уэлда. Общеизвестно, что Уэлд живет в 
Кеймбридже, штат Массачусетс, в котором всего семь почтовых индексов и 54 000 жителей. 
Суини сопоставила эту информацию с данными в избирательном бюллетене, которые можно 
было купить всего за $20. Затем, используя другую общедоступную информацию об Уэлде 
— дату его рождения, пол и т.д., она смогла сопоставить ее с больничными записями и таким 
образом идентифицировать медицинскую запись Уэлда. В довершение всего Суини послала 
ему копии найденных записей. 
Конечно, в этом деле присутствует фактор уникальности. Любой набор данных может 
включать данные известных лиц, которые в некотором смысле являются аномальными и 
допускают простую идентификацию, но это не означает, что большинство людей могут быть 
так же легко идентифицированы. В нашем примере Уэлд был публичной фигурой, и о нем 
было много чего известно. Кроме того, его повторная идентификация зависела от точности 
информации в избирательном бюллетене. Дэниел Барт-Джонс детально изучил этот случай и 
показал его исключительность3. Тем не менее это событие вызвало определенную тревогу на 


150 
правительственном уровне и недавние изменения в законодательстве затруднили такую 
повторную идентификацию. 
Другой известный случай касается данных веб-поиска, открыто опубликованных на портале 
поставщиком онлайн-услуг AOL в 2006 г. Чтобы сохранить анонимность, AOL удалил 
IP-адреса и никнеймы пользователей, осуществлявших поисковые запросы, заменяя их все 
тем же случайно выбранным идентификатором. В данном случае анонимность была 
взломана не аспирантом, а двумя журналистами, которые быстро сопоставили 
идентификатор 4417749 с Тельмой Арнольд, вдовой, проживающей в Лилберне, штат 
Джорджия. Журналисты сделали это, сузив поиск благодаря информации, содержавшейся в 
ее поисковых запросах: она искала медицинские недуги людей с фамилией Арнольд, 
информацию о собаках и т.д. 
Еще один печально известный случай — так называемый «приз от Netflix» — произошел в 
2006 г. База данных Netflix содержала сравнительные рейтинги предпочтений фильмов для 
полумиллиона подписчиков сервиса. Компанией был объявлен конкурс с призовым фондом 
в размере $1 млн за разработку алгоритма, который бы на 10% точнее существующего 
рекомендовал фильмы подписчикам. Вся личная информация, как и положено, была удалена, 
а идентификаторы заменены случайными кодами. На этот раз защиту взломали два 
исследователя из Техасского университета, Арвинд Нараянан и Виталий Шматиков. Вот их 
заявление: «Мы показываем, что злоумышленник, который знает хоть что-то об отдельном 
подписчике, может легко идентифицировать запись этого подписчика в наборе данных. 
Используя базу данных фильмов в интернете (IMDb) в качестве источника базовых знаний, 
мы успешно определили записи известных пользователей Netflix, выявив их очевидные 
политические предпочтения и другую конфиденциальную информацию»4. 
Все вышеизложенное — это случаи, произошедшие относительно давно. В результате их 
были приняты законы, направленные на то, чтобы сделать наборы данных более 
безопасными и наказывать за попытки взломать анонимность. Но печальная правда 
заключается в том, что данные должны быть либо абсолютно темными и, следовательно, 
бесполезными, либо иметь для доступа хотя бы минимальную щель, через которую всегда 
может просочиться свет. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   69   70   71   72   73   74   75   76   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish