Бюро переписи населения предлагает использовать дифференцированную конфиденциальность, новый метод, который пытается защитить личность людей при публикации общедоступных данных. Данные переписи используются для распределения федерального финансирования, которое влияет на сообщества, а также определяет представительство в Конгрессе.
Алексис Сантос, доцент кафедры человеческого развития и семейных исследований в Пенсильванском университете, вместе с исследователями Джеффри Ховардом, доцентом Техасского университета в Сан-Антонио, и Эштоном Вердери, доцентом социологии, демографии и анализа социальных данных в Пенсильванском государстве , изучили показатели смертности в 2010 г. Исследователи сравнили оба метода защиты конфиденциальности и последствия этого изменения, чтобы лучше понять различия в состоянии здоровья в Соединенных Штатах. Работа была недавно опубликована в Proceedings of the National Academy of Sciences.
Исследовательская группа обнаружила, что использование метода дифференциальной конфиденциальности для данных переписи населения привело к резким изменениям в подсчете населения расовых и этнических меньшинств по сравнению с традиционными методами.
«Мы сосредоточились на оценках уровня смертности, потому что они являются важным показателем на уровне населения, данные по которому собираются и распространяются на национальном уровне, а также потому, что уровень смертности является критическим показателем здоровья населения», – сказал Сантос.
Затем исследовательская группа изучила изменения показателей смертности в результате применения двух систем предотвращения раскрытия информации по городским классификациям.
"Мы обнаружили, что при использовании дифференцированной конфиденциальности были случаи как недооценки, так и переоценки населения. В сельских районах расовые и этнические меньшинства не учитывались, а в городских районах – эти группы населения не учитывались », – сказал Сантос.
Исследователи обнаружили, что некоторые расхождения между двумя методами анализа данных превышают разницу в 10%.
«Это очень беспокоит, потому что это может повлиять на объемы финансирования, получаемые программами для конкретной географической области», – сказал Сантос. "Эти несоответствия могут привести к заниженным рискам для здоровья в одних областях и завышению в других, где в этом нет особой необходимости."
По словам Сантоса, результаты подчеркивают последствия внедрения дифференцированной конфиденциальности и демонстрируют проблемы с использованием продуктов данных, полученных с помощью этого метода.
«Бюро переписи очень восприимчиво к нашему исследованию и продемонстрировало озабоченность по поводу точности данных», – сказал Сантос. «Мы планируем продолжить дополнительные исследования, чтобы определить, как дифференцированная конфиденциальность может повлиять на оценки роста населения и изменения численности населения от года переписи к году переписи. У нас еще есть время на точную настройку алгоритма дифференциальной конфиденциальности, и наши исследования помогут выявить области для улучшения."
Сантос, который также является софинансируемым преподавателем Института социальных исследований, и его исследовательская группа получали поддержку от Института исследований в области народонаселения и Административного ускорителя данных в Университете штата Пенсильвания. Работа также поддерживается Центром общественных и прикладных исследований в области здравоохранения Техасского университета в Сан-Антонио.
