Исследователи из Бельгийского католического университета Лувен и Имперского колледжа Лондона выяснили, что практически любой набор данных можно деанонимизировать. Результаты исследования ставят под удар дальнейшее использование анонимизированных данных граждан в статистике. Кроме того, исследователи указывают на вытекающие отсюда проблемы с безопасностью данных, которые можно персонализировать с помощью информации из открытых источников, сообщает The Guardian.

Предполагается, что в анонимизированном наборе данных была удалена вся информация, позволяющая установить личность, которая предоставила информацию. При этом в таких данных должны быть сохранена основная полезная информация, позволяющая производить статистические исследования. Однако исследователи из Бельгийского католического университета Лувен и Имперского колледжа Лондона доказали, что практически любой набор сложных данных не поддается полной анонимизации.

В качестве примера исследователи приводят случаи с деанонимизацией набора данных интернет-канала Netflix о рейтингах фильмов, откуда стало возможным извлечь данные о пользователях канала путем сравнения рейтингов с публичными оценками на сайте IMDb и демонстрируют, как домашние адреса нью-йоркских таксистов могут быть вычленены из анонимного набора данных об отдельных поездках по городу.

По словам исследователей, чем больше данных включается в набор, тем легче их деанонимизировать. К примеру, по словам ученых, набор данных с 15-тью демографическими атрибутами «сделает возможным деанонимизацию 99,98% жителей штата Массачусетс». Для небольших же групп населения идентификация отдельных личностей становится ещё проще и для этого требуется ещё меньше данных.

Но, несмотря на это, указывают ученые, компании, работающие на рынке статистической информации, продают наборы данных, содержащие гораздо больше атрибутов на человека. Глава исследовательской группы, Люк Роше, утверждает, что их результаты доказывают — текущих средств для анонимизации данных недостаточно даже ля того, чтобы исполнять требования законов, таких как европейский GDPR (Общий регламент по защите данных) или американский CCPA (Калифорнийский закон о защите прав потребителей).

«Наши результаты опровергают утверждения о том, что, во-первых, повторная идентификация анонимизированных данных практически не представляет риска, а во-вторых, выборка или публикация неполных наборов данных обеспечивают правдоподобное сокрытие персональных данных», — пишет Роше.
источник

Читайте так же:

Поделиться в соц. сетях

0