1 / 18

Пантелеев Алексей Юрьевич Шагурин Игорь Иванович

Применение конвертируемых режимов адресации для повышения производительности сопроцессоров цифровой обработки сигналов в составе многоядерной СнК. Пантелеев Алексей Юрьевич Шагурин Игорь Иванович. Национальный исследовательский ядерный университет «МИФИ». Введение.

Download Presentation

Пантелеев Алексей Юрьевич Шагурин Игорь Иванович

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Применение конвертируемых режимов адресации для повышения производительности сопроцессоров цифровой обработки сигналов в составе многоядерной СнК Пантелеев Алексей Юрьевич Шагурин Игорь Иванович Национальный исследовательский ядерный университет «МИФИ»

  2. Введение • DSP-процессоры поддерживают специальные режимы адресации • Пост-инкремент (обработка массивов данных) • Адресация по модулю (кольцевой буфер) • Такие режимы повышают производительность • В векторных процессорах не используются • Вектора заменяют циклы и пост-инкремент • Простые режимы адресации: • С заданным шагом: VecA[N] = Mem[Base + N * Step] • Косвенная векторная: VecA[N] = Mem[VecB[N]]

  3. Адресация в алгоритмах DSP • Простое БПФ пооснованию 2: • Бит-реверсная перестановка отсчетов • Транспонирование в пространстве {0,1}N • БПФ как двумерное разложение: • Бит-реверсная перестановка векторов • Транспонирование двумерной матрицы • Свертка и корреляция: • Адресация векторов по некратному смещению

  4. Проблема • Формы доступа к данным в алгоритмах DSP плохо согласуются с тем, что поддерживается векторными процессорами: • Быстрое транспонирование требует поддержки косвенной векторной адресации либо произвольной перестановки данных в регистрах • Свертка требует загрузки векторных регистров на каждой итерации алгоритма • Вычисление векторов адресов требует дополнительных ресурсов процессора

  5. Решение • Векторная память с несколькими банками • Число банков соответствует числу вычислительных конвейеров • По аналогии с разделяемой памятью в CUDA/OpenCL • Один запрос, разные адреса для банков • Реализуются различные режимы доступа • Адреса генерируются аппаратно в соответствии с режимом и настройками – нет необходимости тратить на это инструкции • Конфликты банков невозможны

  6. Схема блока памяти

  7. Программная модель • Инструкции работают с векторами из чисел • Переменная длина вектора • От 1 до 256 векторных элементов • Векторный элемент – «квант» доступа в память • Вектора называются «регистрами» и находятся в «сегментах» • Регистры размещаются в векторной памяти • Сегмент – независимая область памяти • В инструкциях указывается сегмент и регистр(«C12») • Каждый сегмент имеет свой режим адресации

  8. Режимы адресации • 5 режимов адресации: • Простой • Скалярный • Сверточный • Матричный прямой • Матричный транспонированный • Переключение режима меняет представление данных • Не все режимы совместимы друг с другом

  9. Режимы адресации • Первая группа: простой, сверточный, скалярный • Загрузка и выгрузка – только в простом • Скалярный – только для чтения • Вторая группа: матричные режимы • Загрузка и выгрузка – в любом из двух режимов • Размер матрицы – N * 2k, измерения независимы • «Бесплатное» транспонирование матриц

  10. Режимы адресации

  11. Размещение матриц в памяти Прямой матричный режим

  12. Размещение матриц в памяти Транспонированный матричный режим

  13. Реализация БПФ Схема алгоритма для БПФ-16

  14. БПФ в потоковом режиме Представлены времена для БПФ-1024 на ВКС с 8 конвейерами

  15. Производительность БПФ При обработке БПФ на сопроцессорах с большим количеством параллельных вычислительных устройств производительность может быть ограничена передачей данных. Применение конвертируемых режимов адресации снижает объем передаваемых данных.

  16. Сравнение производительности БПФ Млн. отсчетов в секунду, лог. масштаб

  17. Заключение • Предложена система векторной памяти с поддержкой конвертируемых режимов адресации данных • Плюсы: • Реализуются типичные для DSP формы доступа • «Бесплатное» транспонирование матриц • Минусы: • Все рабочие данные необходимо хранить в SRAM большого объема с малым количеством портов • Схемы генерации адресов удлиняют конвейер

  18. Спасибо за внимание! • Вопросы? • Адрес для связи: apanteleev87@gmail.com

More Related