Соблюдение конфиденциальности для автоматизированных систем больших данных: код поисковой системы - движущаяся цель, ускользающая от ручного аудита

Исследователи разработали прототип автоматизированной системы, которая теперь работает на конвейере анализа данных Bing, поисковой системы Microsoft. По словам Сайката Гуха, исследователя из Microsoft, это первый случай, когда автоматизированный анализ соответствия требованиям конфиденциальности был применен к производственному коду системы Интернет-масштаба и является отражением стремления Microsoft создать технологию, необходимую для дальнейшей защиты конфиденциальности клиентов.
Используя новый, удобный для юристов язык для определения политик конфиденциальности и используя реестр данных для аннотирования существующих программ, исследователи показали, что команда из пяти человек может управлять ежедневной проверкой соответствия миллионов строк кода, написанного несколькими тысячами разработчиков.
Они представили результаты своих исследований на 35-м симпозиуме IEEE по безопасности и конфиденциальности 18-21 мая в Сан-Хосе, Калифорния.

«Компании в Соединенных Штатах имеют юридическое обязательство декларировать, как они используют личную информацию, которую они собирают, и также полезно устанавливать доверительные отношения с клиентами», – сказал Анупам Датта, доцент кафедры информатики, электротехники и компьютерной инженерии. "Но эти системы постоянно развиваются, и их масштаб может быть устрашающим. Ручные методы, обычно используемые для проверки соответствия, являются трудоемкими, но слишком часто не позволяют выявить все нарушения политики."
«Десятки миллионов строк кода уже находятся в разработке», – отметил Шаяк Сен, доктор философии.D. студент-информатик, стажировавшийся в Microsoft Research India и ведущий автор исследования. "И во время внедрения Bing мы обнаружили, что более 20 процентов кода меняется ежедневно."В таких больших масштабах автоматизированные методы дают наилучшую надежду на проверку соответствия.

«Одна из причин, по которой существуют пробелы между политиками, установленными командой по обеспечению конфиденциальности компании, и кодом, написанным разработчиками программного обеспечения, заключается в том, что эти две группы не говорят на одном языке», – сказал Датта. Юристы и защитники конфиденциальности обычно имеют небольшой опыт программирования, а разработчики, пытающиеся преобразовать политики в код, могут запутаться из-за двусмысленности в языке политик конфиденциальности.

Таким образом, исследователи разработали язык – Legalease, – который могли бы легко выучить и использовать защитники конфиденциальности. В нем используются правила разрешения-запрета с исключениями, структура, которая присутствует во многих политиках и законах о конфиденциальности, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA), и достаточно выразительна, чтобы отражать реальную политику системы промышленного масштаба, такой как как Bing.
В ходе предварительного тестирования юзабилити десятку сотрудников Microsoft дали одностраничный документ, объясняющий Legalease, и они потратили в среднем менее 5 минут на его изучение.

Затем им потребовалось в среднем менее 15 минут, чтобы закодировать девять пунктов политики Bing относительно того, как можно использовать информацию о пользователях. «Они смогли выполнить эту задачу с высокой степенью точности, что обнадеживает», – сказал Сен.
Но правильное кодирование политик конфиденциальности мало что значит, если они не могут быть применены к большим кодовым базам, написанным большими командами программистов. Чтобы решить эту дилемму, исследователи использовали Grok – инвентарь данных, который аннотирует существующие программы, написанные на языках, которые обычно используются в системах, подобных MapReduce, например, используемых Bing и Google, – для их внутреннего анализа данных над пользовательскими данными.

Grok выполняет эту автоматическую аннотацию, комбинируя информацию из разных источников с разной степенью достоверности. Например, автоматическое сопоставление шаблонов с именами столбцов может выполняться во всей базе данных, но с низкой степенью достоверности, в то время как аннотации разработчиков имеют высокую степень достоверности, но низкий охват.

Grok был разработан Microsoft Research и развернут Bing специально для автоматизации проверки соблюдения конфиденциальности в прошлом году, но написание политик для Grok было обременительным.
«Legalease была последней частью головоломки автоматического соблюдения конфиденциальности», – сказал Гуха. «Разработанный в ходе стажировки Сена и последующего сотрудничества с CMU, Legalease объединила команды по обеспечению конфиденциальности с Grok, а через Grok – с разработчиками."
Датта сказал, что автоматизация процесса проверки соответствия может подтолкнуть отрасль к принятию более строгих политик защиты конфиденциальности.
«Иногда компании хотят усилить свою политику, но колеблются, потому что не уверены, что могут обеспечить соответствие в этих крупных системах», – пояснил он, отметив, что соблюдение политики конфиденциальности в Интернете в Соединенных Штатах обеспечивается Федеральной торговой комиссией.

В исследовательскую группу входил Шрирам К. Раджамани из Microsoft Research в Бангалоре, Индия; Дженис Цай из Microsoft Research, Редмонд, и Жаннетт Винг, корпоративный вице-президент Microsoft Research и бывший глава отдела компьютерных наук CMU.
Это исследование было частично поддержано Управлением научных исследований ВВС США и Национальным научным фондом.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Похожие записи