Инженеры предлагают умные и своевременные идеи для устранения узких мест искусственного интеллекта: исследователи представляют энергосберегающие проекты для компьютерной обработки с интенсивным использованием данных

Достижения в области машинного обучения, формы искусственного интеллекта в основе самоуправляемых автомобилей и многих других высокотехнологичных приложений, открыли новую эру вычислений – эру, ориентированную на данные, – и вынуждают инженеров переосмыслить аспекты вычислительной архитектуры. которые практически не вызывали возражений в течение 75 лет.
«Проблема в том, что для крупномасштабных глубоких нейронных сетей, которые сегодня являются новейшими технологиями машинного обучения, более 90% электроэнергии, необходимой для работы всей системы, расходуется на перемещение данных между памятью и процессором. , – сказал Инъян Линь, доцент кафедры электротехники и вычислительной техники.
Лин и соавторы предложили два дополнительных метода оптимизации обработки данных, оба из которых были представлены 3 июня на Международном симпозиуме по компьютерной архитектуре (ISCA), одной из главных конференций по новым идеям и исследованиям в области компьютерной архитектуры.

Стремление к архитектуре, ориентированной на данные, связано с проблемой, называемой узким местом фон Неймана, неэффективностью, которая проистекает из разделения памяти и обработки в вычислительной архитектуре, которая царила безраздельно с тех пор, как математик Джон фон Нейман изобрел ее в 1945 году. Благодаря отделению памяти от программ и данных архитектура фон Неймана позволяет одному компьютеру быть невероятно универсальным; в зависимости от того, какая сохраненная программа загружена из его памяти, компьютер можно использовать для видеозвонка, подготовки электронной таблицы или моделирования погоды на Марсе.
Но отделение памяти от обработки также означает, что даже простые операции, такие как сложение 2 плюс 2, требуют, чтобы процессор компьютера обращался к памяти несколько раз.

Это узкое место в памяти усугубляется массовыми операциями в глубоких нейронных сетях, системах, которые учатся принимать человеческие решения, "изучая" большое количество предыдущих примеров. Чем больше сеть, тем сложнее задача, которую она может решить, и чем больше примеров показана сеть, тем лучше она работает. Для глубокого обучения нейронной сети могут потребоваться банки специализированных процессоров, которые работают круглосуточно более недели.

Выполнение задач на основе изученных сетей – процесс, известный как вывод – на смартфоне может разрядить его аккумулятор менее чем за час.

«Общеизвестно, что для алгоритмов, ориентированных на данные в эпоху машинного обучения, нам нужна инновационная аппаратная архитектура, ориентированная на данные», – сказал Лин, директор лаборатории эффективных и интеллектуальных вычислений (EIC) Райса. "Но какова оптимальная аппаратная архитектура для машинного обучения??
«Не существует однозначных ответов, поскольку для разных приложений требуются алгоритмы машинного обучения, которые могут сильно различаться с точки зрения структуры и сложности алгоритмов, но при этом имеют разную точность выполнения задач и потребление ресурсов, таких как стоимость энергии, задержка и пропускная способность – – требования к компромиссу ", – сказала она. "Многие исследователи работают над этим, и у крупных компаний, таких как Intel, IBM и Google, есть свои собственные разработки."
В одной из презентаций группы Лин на ISCA 2020 были представлены результаты TIMELY, инновационной архитектуры, которую она и ее ученики разработали для «обработки в памяти» (PIM), подхода, отличного от фон Неймана, который обеспечивает обработку массивов памяти.

Перспективной платформой PIM является «резистивная оперативная память» (ReRAM), энергонезависимая память, аналогичная флэш-памяти. В то время как были предложены другие архитектуры ускорителей ReRAM PIM, Лин сказал, что эксперименты, проведенные на более чем 10 моделях глубоких нейронных сетей, показали, что TIMELY был в 18 раз более энергоэффективным и обеспечивал более чем в 30 раз большую вычислительную плотность, чем самые конкурентоспособные современные модели.

Ускоритель ReRAM PIM.
TIMELY, что означает «Time-domain, In-Memory Execution, LocalitY», достигает своей производительности за счет устранения основных факторов неэффективности, возникающих как из-за частого доступа к основной памяти для обработки промежуточного ввода и вывода, так и из-за интерфейса между локальным и основным воспоминания.
В основной памяти данные хранятся в цифровом виде, но они должны быть преобразованы в аналоговые, когда они переносятся в локальную память для обработки в памяти. В предыдущих ускорителях ReRAM PIM результирующие значения преобразовывались из аналоговых в цифровые и отправлялись обратно в основную память.

Если они вызываются из основной памяти в локальную память ReRAM для последующих операций, они снова преобразуются в аналоговые и т. Д.

СВОЕВРЕМЕННО позволяет избежать накладных расходов как на ненужные обращения к основной памяти, так и на сопряженное преобразование данных за счет использования буферов аналогового формата в локальной памяти.

Таким образом, СВОЕВРЕМЕННО в основном хранит необходимые данные в массивах локальной памяти, что значительно повышает эффективность.
Второе предложение группы на ISCA 2020 касалось SmartExchange, проекта, сочетающего в себе инновационные алгоритмы и аппаратные ускорители для экономии энергии.
«Для доступа к основной памяти – DRAM – может потребоваться примерно в 200 раз больше энергии, чем для выполнения вычислений, поэтому ключевая идея SmartExchange – обеспечить выполнение структур в алгоритме, которые позволяют нам обменивать более дорогую память на гораздо более высокую цену. менее затратные вычисления ", – сказал Лин.

«Например, допустим, у нашего алгоритма 1000 параметров», – добавила она. "При традиционном подходе мы будем хранить все 1000 в DRAM и получать доступ по мере необходимости для вычислений. Используя SmartExchange, мы ищем какую-то структуру в пределах этой 1000. Затем нам нужно сохранить только 10, потому что, если мы знаем отношения между этими 10 и оставшимися 990, мы можем вычислить любое из 990, а не вызывать их из DRAM.
«Мы называем их« базовым »подмножеством, и идея состоит в том, чтобы хранить их локально, рядом с процессором, чтобы избежать или агрессивно снизить затраты на доступ к DRAM», – сказала она.

Исследователи использовали алгоритм SmartExchange и собственный аппаратный ускоритель для экспериментов с семью тестовыми моделями глубоких нейронных сетей и тремя тестовыми наборами данных. Они обнаружили, что эта комбинация уменьшила задержку в 19 раз по сравнению с современными ускорителями глубоких нейронных сетей.

Исследование было поддержано Национальным научным фондом (937592 и 1937588) и Национальными институтами здравоохранения (R01HL144683).