//Анонимные данные не анонимны

Анонимные данные не анонимны

Все мы более или менее согласны с тем, что живем в каком-то романе Джорджа Оруэлла, где каждое наше движение отслеживается и записывается каким-то образом.

Все, что мы делаем сегодня, особенно если речь идет о каких-либо гаджетах или электронике, генерирует данные, которые кого-то интересуют. Эти данные постоянно собираются и хранятся, и кто-то использует их для построения картины мира вокруг нас.

Обычный человек сегодня гораздо больше осознает важность безопасности своих данных. Мы все понимаем, что неверные данные, попавшие в чужие руки, могут быть использованы для нанесения ущерба как отдельным людям, так и обществу в целом.

Теперь, когда существует гораздо большее общее понимание важности конфиденциальности данных, злоумышленникам гораздо труднее бессовестно собирать у нас конфиденциальные данные, поскольку большинство людей знают, что их нельзя передавать.

Законы о защите данных

В большинстве юрисдикций действуют законы и правила, регулирующие сбор, хранение, обмен и доступ к личным данным.

Несмотря на то, что эти законы серьезно отсутствуют в ряде областей, в последние годы наблюдается тенденция к усилению защиты людей от корпоративной халатности и злоупотреблений, что приветствуется большинством потребителей.

Вероятно, самым известным законом о защите данных является знаменитый GDPR или Общий регламент защиты данных, который вступил в силу в 2018 году. Хотя теоретически он имеет силу только в ЕС, на практике закон применяется к каждой компании, которая имеет дело с Граждане ЕС.

Его строгие требования к конфиденциальности заставили многие компании пересмотреть методы обработки данных, угрожая ненадлежащим поведением штрафами, которые могут достигать миллиардов евро (до 4% годового оборота компании).

В отличие от ЕС, в США нет единого постановления на федеральном уровне по защите данных своих граждан. Признавая это, некоторые штаты выпустили собственные законы о конфиденциальности.

Вероятно, наиболее обширным из них на сегодняшний день является CCPA или Закон Калифорнии о конфиденциальности потребителей.

Закон вступит в силу с 2020 года и предоставит гражданам Калифорнии многие из тех же прав, что и граждане ЕС.

Это позволит жителям Калифорнии узнать, какие данные о них собираются, где они используются, отказываться от продажи своих данных и запрашивать их удаление.

Анонимные данные

Одна общая тема, которая возникла в нормативных актах разных юрисдикций, — это понятие анонимных данных. Как следует из названия, это данные, которые нельзя привязать к конкретному человеку.

Набор анонимных данных может быть представлен как принадлежащий конкретному человеку, но личность субъекта не раскрывается в данных.

Анонимизация данных представляет собой привлекательную точку соприкосновения между правами потребителей и тех, кто хочет использовать свои личные данные.

В конце концов, информация о том, кто мы и чем мы занимаемся, долгое время была движущей силой многих крупнейших компаний сегодняшнего дня, включая Google, Facebook и Amazon.

Но не только частные корпорации получают выгоду от наших данных. Удаляя любую личную информацию из набора данных и анонимизируя ее, исследователи могут работать с большими и подробными наборами данных, которые содержат огромное количество информации, не подвергая риску конфиденциальность любого человека.

Анонимизируя данные, мы также можем побуждать людей делиться данными, которые в противном случае они бы сохранили. Компании и правительства могут получать доступ и торговать огромными объемами данных, не нарушая чью-либо конфиденциальность, благодаря анонимности.

Между тем, пользователям не нужно беспокоиться о том, что данные, которые они генерируют, будут записаны и раскрыть информацию о них лично.

Методы анонимизации данных

Есть много способов обезличить данные, различающиеся по стоимости и сложности.

Возможно, самый простой способ — просто удалить некоторые прямые идентификаторы пользователя. Это в основном ваша основная личная информация. Например, страховая компания может удалить имя клиента, дату рождения и назвать эти данные анонимными.

Другой метод — обобщить данные нескольких пользователей, чтобы снизить их точность. Например, вы можете удалить последние цифры почтового индекса или указать возраст человека в диапазоне, а не точное число.

Это один из методов, который Google использует для достижения k-анонимности — этот сложный термин просто означает, что определенное количество людей (определяемое буквой k) должно иметь одно и то же свойство, например почтовый индекс.

Еще один способ — включить шум в набор данных. Под шумом я подразумеваю обмен информацией об определенных свойствах между людьми или группами.

Например, с помощью этого метода можно передать сведения о владении вашим автомобилем другому человеку. Ваш профиль изменится, но весь набор данных останется нетронутым для статистического анализа.

Наконец, вы можете дополнительно защитить анонимные данные, которыми вам нужно поделиться, путем их выборки, то есть выпуска набора данных небольшими партиями. Теоретически отбор проб помогает снизить риск повторной идентификации.

Даже если данных достаточно, чтобы идентифицировать вас как личность, по статистике должно быть по крайней мере несколько других людей с такими же характеристиками, как вы. Не имея всего набора данных, невозможно сказать, кто это на самом деле.

Существуют и другие методы анонимизации данных , но это одни из основных.

Деанонимизация

Итак, анонимность делает всех победителями, не так ли? Не совсем так.

Любой, кто много работал с данными, может засвидетельствовать, насколько мало информации требуется для идентификации конкретного человека из многотысячной базы данных.

Одним из последствий огромных объемов данных, которые сейчас существуют для всех нас, является то, что на разные источники данных можно ссылаться для выявления общих элементов.

В некоторых случаях эта перекрестная ссылка может мгновенно деанонимизировать целые наборы данных, в зависимости от того, как именно они были анонимизированы.

Исследователи смогли восстановить фамилии американских мужчин из базы данных генетической информации, просто воспользовавшись общедоступными интернет-ресурсами.

Общедоступный набор данных лондонской службы проката велосипедов можно использовать не только для отслеживания поездок, но и для того, кто их совершил.

Анонимные рейтинги фильмов Netflix были сопоставлены с отдельными людьми путем перекрестной ссылки на них с данными IMDB, что позволило выявить некоторые очень личные факты о пользователях. Это лишь некоторые из множества подобных примеров.

С момента введения GDPR ряд предприятий искали способы продолжить работу с большими объемами данных о клиентах, не нарушая новых правил.

Многие организации стали рассматривать анонимные наборы данных как средство потенциального обхода правил. В конце концов, если данные не привязаны к конкретным людям, они не могут нарушать их конфиденциальность.

Нет такой вещи, как аноним

Согласно новому исследованию, проведенному учеными из Имперского колледжа Лондона и их коллегами из Бельгийского католического университета Лувена, деанонимизировать данные должным образом невероятно сложно.

Чтобы данные были полностью анонимными, они должны быть представлены изолированно. Вы можете использовать VPN или изменить свой IP-адрес (дополнительную информацию о прокси-серверах вы можете найти на Proxyway ) и т. Д.

Если о человеке предоставлено достаточно анонимных данных, все, что требуется, — это простая перекрестная ссылка с другими базами данных, чтобы установить, к кому относятся эти данные.

Используя свою собственную модель прогнозирования, исследователи сделали поразительное открытие: потребуется всего 15 частей демографической информации, чтобы повторно идентифицировать 99,98% американцев.

Более того, для уверенной идентификации 79,4% всего штата Массачусетс потребуется всего четыре основных атрибута (почтовый индекс, дата рождения, пол и количество детей). Согласно исследованию, разглашения данных небольшими выборками недостаточно для защиты человека от обнаружения.

Помня, что исследователи могут деанонимизировать записи всего штата, брокеры данных, такие как Experian, продают анонимные наборы данных, которые содержат сотни точек данных для каждого человека.

Согласно работе исследователей, эти данные анонимны только по названию, и любой, кто способен обрабатывать большие наборы данных, также имеет ресурсы для их легкой деанонимизации.

Неважно, какие методы используются для анонимизации данных. Даже более продвинутых методов, таких как k-анонимность, может быть недостаточно, не говоря уже о том, что они дороги.

В большинстве случаев все, что происходит, — это удаляются только идентифицируемые данные, такие как имена и адреса. Этого далеко не достаточно.

Выводы исследователей убеждают нас не впадать в ложное чувство безопасности. Они также оспаривают методы, которые компании используют для анонимизации данных в свете строгих нормативных требований, установленных GDPR и предстоящим CCPA.

Заворачивать

Долгая борьба за то, чтобы среднестатистического интернет-пользователя заботиться о своих данных и конфиденциальности, была утомительной. Любой, кто работал в сфере кибербезопасности в течение последних нескольких десятилетий, может засвидетельствовать, насколько ситуация улучшилась, но впереди еще долгий путь.

Представление о том, что данные людей можно обезличить и обезвредить, неверно и опасно. Важно, чтобы люди правильно понимали последствия передачи своих данных. Не отдавайте свои данные под ложным впечатлением, что они не могут быть связаны с вами.