Исследователи оценивают изменения конфиденциальности данных переписи населения 2020 года

Бюро переписи населения предлагает использовать дифференцированную конфиденциальность, новый метод, который пытается защитить личность людей при публикации общедоступных данных. Данные переписи используются для распределения федерального финансирования, которое влияет на сообщества, а также определяет представительство в Конгрессе.

Алексис Сантос, доцент кафедры человеческого развития и семейных исследований в Пенсильванском университете, вместе с исследователями Джеффри Ховардом, доцентом Техасского университета в Сан-Антонио, и Эштоном Вердери, доцентом социологии, демографии и анализа социальных данных в Пенсильванском государстве , изучили показатели смертности в 2010 г. Исследователи сравнили оба метода защиты конфиденциальности и последствия этого изменения, чтобы лучше понять различия в состоянии здоровья в Соединенных Штатах. Работа была недавно опубликована в Proceedings of the National Academy of Sciences.
Исследовательская группа обнаружила, что использование метода дифференциальной конфиденциальности для данных переписи населения привело к резким изменениям в подсчете населения расовых и этнических меньшинств по сравнению с традиционными методами.
«Мы сосредоточились на оценках уровня смертности, потому что они являются важным показателем на уровне населения, данные по которому собираются и распространяются на национальном уровне, а также потому, что уровень смертности является критическим показателем здоровья населения», – сказал Сантос.

Затем исследовательская группа изучила изменения показателей смертности в результате применения двух систем предотвращения раскрытия информации по городским классификациям.
"Мы обнаружили, что при использовании дифференцированной конфиденциальности были случаи как недооценки, так и переоценки населения. В сельских районах расовые и этнические меньшинства не учитывались, а в городских районах – эти группы населения не учитывались », – сказал Сантос.

Исследователи обнаружили, что некоторые расхождения между двумя методами анализа данных превышают разницу в 10%.
«Это очень беспокоит, потому что это может повлиять на объемы финансирования, получаемые программами для конкретной географической области», – сказал Сантос. "Эти несоответствия могут привести к заниженным рискам для здоровья в одних областях и завышению в других, где в этом нет особой необходимости."
По словам Сантоса, результаты подчеркивают последствия внедрения дифференцированной конфиденциальности и демонстрируют проблемы с использованием продуктов данных, полученных с помощью этого метода.

«Бюро переписи очень восприимчиво к нашему исследованию и продемонстрировало озабоченность по поводу точности данных», – сказал Сантос. «Мы планируем продолжить дополнительные исследования, чтобы определить, как дифференцированная конфиденциальность может повлиять на оценки роста населения и изменения численности населения от года переписи к году переписи. У нас еще есть время на точную настройку алгоритма дифференциальной конфиденциальности, и наши исследования помогут выявить области для улучшения."

Сантос, который также является софинансируемым преподавателем Института социальных исследований, и его исследовательская группа получали поддержку от Института исследований в области народонаселения и Административного ускорителя данных в Университете штата Пенсильвания. Работа также поддерживается Центром общественных и прикладных исследований в области здравоохранения Техасского университета в Сан-Антонио.