Фейковые новости, популяризированные в США во время президентских выборов 2016 года, представляют собой форму пропаганды, созданную для того, чтобы ввести читателей в заблуждение, чтобы генерировать просмотры на веб-сайтах или управлять общественным мнением.
Почти так же быстро, как проблема стала общепринятой, исследователи начали разработку автоматизированных детекторов фальшивых новостей – так называемых нейронных сетей, которые «учатся» на множестве данных, чтобы распознавать лингвистические сигналы, указывающие на ложные статьи. При наличии новых статей для оценки эти сети могут с довольно высокой точностью отделить факты от вымысла в контролируемых условиях.
Однако одна проблема – это проблема «черного ящика», то есть неизвестно, какие лингвистические паттерны анализируют сети во время обучения. Они также проходят обучение и тестирование по одним и тем же темам, что может ограничить их потенциал для обобщения на новые темы, что является необходимостью для анализа новостей в Интернете.
В документе, представленном на конференции и семинаре по системам обработки нейронной информации, исследователи решают обе эти проблемы.
Они разработали модель глубокого обучения, которая учится обнаруживать языковые шаблоны фейковых и реальных новостей. Часть их работы «взламывает» черный ящик, чтобы найти слова и фразы, которые модель улавливает, чтобы делать свои прогнозы.
Кроме того, они протестировали свою модель на новой теме, которую не видели в обучении.
Этот подход классифицирует отдельные статьи исключительно на основе языковых шаблонов, которые более точно представляют реальное приложение для читателей новостей. Традиционные детекторы фейковых новостей классифицируют статьи на основе текста в сочетании с исходной информацией, такой как страница или веб-сайт Википедии.
«В нашем случае мы хотели понять, каков был процесс принятия решений классификатором, основанный только на языке, поскольку это может дать представление о том, на каком языке фальшивые новости», – говорит соавтор Ксавье Бойс, постдок в лаборатории. Юджина Макдермотта, профессора Томазо Поджио из Центра мозга, разума и машин (CBMM) Департамента мозговых и когнитивных наук (BCS).
«Ключевой проблемой машинного обучения и искусственного интеллекта является то, что вы получаете ответ и не знаете, почему вы получили этот ответ», – говорит аспирантка и первый автор Николь О’Брайен ’17. "Демонстрация такой внутренней работы – первый шаг к пониманию надежности детекторов фейковых новостей с глубоким обучением."
Модель выявляет наборы слов, которые чаще встречаются как в реальных, так и в фальшивых новостях – некоторые из них, возможно, очевидны, другие – гораздо реже. Полученные данные, по словам исследователей, указывают на тонкие, но постоянные различия в фейковых новостях – которые предпочитают преувеличения и превосходную степень – и настоящих новостях, которые больше склоняются к консервативному выбору слов.
«Фейковые новости – угроза демократии», – говорит Буа. "В нашей лаборатории наша цель – не только продвигать науку вперед, но и использовать технологии, чтобы помочь обществу. …
Было бы здорово иметь инструменты для пользователей или компаний, которые могли бы дать оценку того, являются ли новости фальшивыми или нет."
Другие соавторы статьи – София Латесса, студентка CBMM; и Георгиос Евангелопулос, исследователь из CBMM, Института исследований мозга Макговерна и Лаборатории вычислительного и статистического обучения.
Ограничение предвзятости
Модель исследователей представляет собой сверточную нейронную сеть, которая обучается на наборе данных фейковых и реальных новостей. Для обучения и тестирования исследователи использовали популярный набор данных исследования фейковых новостей под названием Kaggle, который содержит около 12000 примеров фейковых новостных статей с 244 различных веб-сайтов.
Они также составили набор данных из реальных образцов новостей, используя более 2000 из New York Times и более 9000 из The Guardian.
Во время обучения модель фиксирует язык статьи как «вложения слов», где слова представлены в виде векторов – в основном, массивов чисел – со словами схожего семантического значения, сгруппированными ближе друг к другу. При этом он фиксирует тройки слов в качестве шаблонов, которые обеспечивают некоторый контекст – например, отрицательный комментарий о политической партии.
Получив новую статью, модель сканирует текст на наличие похожих шаблонов и отправляет их по серии слоев. Окончательный выходной слой определяет вероятность каждого паттерна: реального или поддельного.
Сначала исследователи обучили и протестировали модель традиционным способом, используя те же темы.
Но они думали, что это может создать в модели неотъемлемую предвзятость, поскольку определенные темы чаще становятся предметом фейковых или реальных новостей. Например, в фейковых новостях обычно чаще встречаются слова «Трамп» и «Клинтон»."
«Но это не то, что мы хотели», – говорит О’Брайен. "Это просто показывает темы, которые имеют большой вес в фейковых и реальных новостях. …
Мы хотели найти в языке фактические шаблоны, указывающие на эти."
Затем исследователи обучили модель по всем темам без упоминания слова «Трамп» и протестировали модель только на выборках, которые были выделены отдельно от данных обучения и которые действительно содержали слово «Трамп».«В то время как традиционный подход достиг 93-процентной точности, второй подход достиг 87-процентной точности.
По словам исследователей, этот пробел в точности подчеркивает важность использования тем, выделенных в процессе обучения, чтобы модель могла обобщить полученные знания на новые темы.
Требуются дополнительные исследования
Чтобы открыть черный ящик, исследователи пошли по своим следам. Каждый раз, когда модель делает предсказание о тройке слов, активируется определенная часть модели, в зависимости от того, является ли тройка более вероятной из реальной или фальшивой новости.
Исследователи разработали метод, позволяющий проследить каждое предсказание до его обозначенной части, а затем найти точные слова, которые заставили его активировать.
По словам Бойса, необходимы дополнительные исследования, чтобы определить, насколько полезна эта информация для читателей. В будущем модель потенциально может быть объединена, например, с автоматическими проверками фактов и другими инструментами, чтобы дать читателям преимущество в борьбе с дезинформацией.
После некоторой доработки модель также может стать основой для расширения браузера или приложения, которое предупреждает читателей о потенциальном языке фальшивых новостей.
«Если я просто дам вам статью и выделю эти закономерности в статье, пока вы ее читаете, вы сможете оценить, является ли статья более или менее фальшивой», – говорит он. "Это было бы своего рода предупреждением, если бы я сказал:" Эй, может, здесь что-то странное.’"
