Новый инструмент расширяет возможности отслеживания личных данных в Интернете

«Интернет похож на Дикий Запад», – говорит Роксана Геамбасу, специалист по информатике из Columbia Engineering и Data Science Institute. "Нет надзора за тем, как наши данные собираются, обмениваются и используются."
Вместе с компьютерными специалистами Огюстином Шентро и Даниэлем Сюй и аспирантами Матиасом Лекуйером, Райли Спан и Яннисом Спилиопулосом Geambasu разработал инструмент второго поколения для обеспечения прозрачности Интернета. Он называется Sunlight и основан на своем предшественнике XRay, который связывал рекламу, показываемую пользователям Gmail, с текстом в их электронных письмах, а рекомендации на Amazon и YouTube с их покупками и моделями просмотра.

В октябре исследователи представят новый инструмент и соответствующее исследование. 14 в Денвере, на ежегодной конференции Ассоциации вычислительной техники по безопасности.
Исследователи говорят, что Sunlight работает в более широком масштабе, чем XRay, и более точно сопоставляет настроенную для пользователей рекламу и рекомендации с лакомыми кусочками информации, предоставляемой пользователями. Предыдущие исследователи поочередно прослеживали конкретные объявления, рекомендации по продуктам и цены по конкретным входным данным, таким как местоположение, поисковые запросы и пол.

Один из инструментов, AdFisher, привлек внимание ранее в этом году после того, как показал, что поддельные пользователи Интернета, которых считали соискателями работы мужчинами, чаще, чем женщины, ищущие работу, получали объявления о руководящих должностях при последующем посещении новостных сайтов.
Солнечный свет, напротив, первым анализирует многочисленные входные и выходные данные вместе, чтобы сформировать гипотезы, которые проверяются на отдельном наборе данных, вырезанном из оригинала. В конце каждой гипотезы и связанных с ней входных и выходных данных оценивается статистическая достоверность. «Мы пытаемся найти баланс между статистической достоверностью и масштабом, чтобы мы могли начать видеть, что происходит в Интернете в целом», – сказал Сюй.

Исследователи создали 119 учетных записей Gmail и за месяц прошлой осенью отправили 300 сообщений с деликатными словами в строке темы и теле письма. Около 15% последовавших рекламных объявлений оказались таргетированными; некоторые, по-видимому, противоречат политике Google, запрещающей таргетинг рекламы на основе «расы, религии, сексуальной ориентации, состояния здоровья или деликатных финансовых категорий», – заявили исследователи. Например, было обнаружено, что слова, введенные в тему сообщения – «безработный», «депрессивный» и «еврей», запускали рекламу «легкого автоматического финансирования», услуги по поиску «изменяющих супругов» и поиск "свободный предок" соответственно.
Исследователи также создали поддельные профили просмотра и просмотрели 40 самых популярных сайтов в Интернете, чтобы увидеть, какие объявления появляются.

Они обнаружили, что таргетингом оказывается всего 5% рекламы, но некоторые из них, по-видимому, нарушают запрет Google на рекламу продуктов и услуг, способствующих употреблению наркотиков. Например, посещение «Hightime.com "запустила рекламу бонгов в AquaLab Technologies, говорят исследователи.

Интересно, что алгоритмы, похоже, улавливают политические предпочтения популярных новостных сайтов, предлагая израильские облигации читателям Fox News и кандидата против чаепития читателям Huffington Post.
Исследователи предостерегают от предположений, что Google и другие компании намеренно используют конфиденциальную информацию для таргетинга рекламы и рекомендаций. По их словам, поток личных данных в Интернете стал настолько сложным, что сами компании могут не знать, как происходит таргетинг.

В ноя. 10 ноября 2014 г. Google внезапно отключил рекламу в Gmail – последний день, когда Геамбасу и ее коллеги смогли собрать данные.

Похоже, что реклама была заменена так называемой органической рекламой, отображаемой на вкладке рекламных акций. По словам Геамбасу, Sunlight может определять таргетинг и в этой рекламе, но исследователи еще не попробовали.
Целевая аудитория Sunlight – регуляторы, наблюдатели за потребителями и журналисты. По их словам, инструмент позволяет им изучить, как используется личная информация, и решить, где необходимо более тщательное расследование. «Во многих отношениях Интернет был силой добра, но для того, чтобы так и дальше оставаться, необходима ответственность», – сказал Шейнтро.

"Солнечный свет отличается тем, что он может исследовать несколько типов входов одновременно (e.грамм., пол, возраст, активность просмотра), чтобы разработать гипотезы о том, какие из этих входных данных влияют на определенные выходы (например,.грамм., реклама в Gmail) ", – сказал Анупам Датта, исследователь из Carnegie Mellon, который руководил разработкой инструмента AdFisher и не принимал участия в текущем исследовании. "Этот инструмент приближает нас к важной цели – обнаружению эффектов использования персональных данных в масштабе."
Копия исследования «Солнечный свет: детальное обнаружение целей в масштабе со статистической достоверностью» доступна в Интернете.

Блог автомобилиста