WikiDer > QPACE2 - Википедия
QPACE 2 (QCD Parallel Computing Engine) - это массивно параллельный и масштабируемый суперкомпьютер. Он был разработан для приложений в решеточная квантовая хромодинамика но также подходит для более широкого спектра применений.
Обзор
QPACE 2 является продолжением QPACE суперкомпьютер[1] и iDataCool проект водяного охлаждения.[2]Это совместная работа группы физики элементарных частиц в Регенсбургский университет и итальянская компания Евротек. Академический конструкторский коллектив состоял из около 10 младших и старших физиков. Подробности проекта описаны в.[3]
QPACE 2 использует Intel Ксеон Пхи процессоры (также известные как KNC), соединенные между собой комбинацией PCI Express (сокращенно PCIe) и FDR InfiniBand. Основные особенности прототипа QPACE 2, установленного в Регенсбургском университете:
- масштабируемость
- высокая плотность упаковки
- водяное охлаждение (чиллеры не нужны)
- высокая энергоэффективность
- экономичный дизайн
Прототип представляет собой установку с одной стойкой, состоящую из 64 узлов с 15 872 физическими ядрами в общей сложности и максимальной производительностью 310 Тфлоп / с. Развернут летом 2015 г.[4] и используется для моделирования решеточная квантовая хромодинамика. В ноябре 2015 года QPACE 2 занял 500-е место в рейтинге Топ500 список самых мощных суперкомпьютеров[5] и # 15 на Зеленый 500 список самых энергоэффективных суперкомпьютеров мира.[6]
QPACE 2 финансировался Немецкий исследовательский фонд (DFG) в рамках SFB / TRR-55 и Евротек.
Архитектура
Многие современные суперкомпьютеры представляют собой гибридные архитектуры, в которых используются карты ускорителей с интерфейсом PCIe для повышения производительности вычислений. Обычно серверные процессоры поддерживают только ограниченное количество ускорителей из-за ограниченного количества Дорожки PCIe (обычно 40 для Архитектура Intel Haswell). Общий подход к интеграции нескольких карт ускорителей в хост-систему заключается в размещении нескольких серверных процессоров, обычно двух или четырех, как распределенная разделяемая память системы. Этот подход позволяет использовать большее количество ускорителей на вычислительный узел из-за большего количества линий PCIe. Однако у него также есть несколько недостатков:
- Серверные процессоры, их межсоединения (QPI для процессоров Intel) и микросхемы памяти значительно увеличивают занимаемую площадь хост-системой.
- Затраты на многопроцессорную архитектуру обычно высоки.
- Серверные процессоры вносят значительный вклад в общую характеристику мощности гибридных компьютерных архитектур и требуют соответствующей мощности охлаждения.
- Взаимодействие серверного процессора может препятствовать эффективной внутриузловой связи и накладывать ограничения на производительность межузловой связи через внешнюю сеть.
- Вычислительная производительность серверных процессоров обычно на порядок ниже, чем у карт ускорителей, поэтому их вклад в общую производительность может быть довольно небольшим.
- Архитектура набора команд и аппаратные ресурсы серверных процессоров и ускорителей существенно различаются. Следовательно, не всегда возможно разработать и выполнить код для обеих архитектур.
Архитектура QPACE 2 устраняет эти недостатки за счет конструкции узла, в котором один маломощный Intel Haswell E3 хост-процессор вмещает четыре Ксеон Пхи Карты ускорителя 7120X для вычислительной мощности и один двухпортовый FDR InfiniBand сетевая карта для внешней связи. Для этого компоненты внутри узла соединены коммутатором PCIe с 96 полосами.
Стойка QPACE 2 содержит 64 вычислительных узла (и, следовательно, 256 Ксеон Пхи ускорителей в целом). По 32 узла находятся на передней и задней стороне стойки. Подсистема питания состоит из 48 источников питания, суммарная пиковая мощность которых составляет 96 кВт. QPACE 2 полагается на решение для охлаждения теплой водой для достижения такой упаковки и удельной мощности.
Вычислительный узел
Узел QPACE 2 состоит из стандартного оборудования, соединенного между собой PCIe. В промежуточная плоскость проходит 96 полос Коммутатор PCIe (PEX8796 от Avago, ранее PLX Technology), имеет шесть 16-канальных разъемов PCIe Gen3 и обеспечивает питание всех разъемов. Один слот используется для Карта процессора, который представляет собой карту форм-фактора PCIe, содержащую один Intel Haswell E3-1230L v3 серверный процессор с памятью DDR3 16 ГБ, а также микроконтроллер для мониторинга и управления узлом. Четыре слота используются для Ксеон Пхи Карты 7120X с 16 ГБ GDDR5 каждая и один слот для двухпортового FDR InfiniBand сетевая карта (Connect-IB от Mellanox).
Объединительная плата и плата ЦП были разработаны для проекта QPACE 2, но могут быть повторно использованы для других проектов или продуктов.
Маломощный серверный ЦП Intel E3-1230L v3 энергоэффективен, но обладает меньшей вычислительной мощностью по сравнению с другими серверными процессорами, доступными примерно в 2015 году (и, в частности, более слабыми, чем большинство карт ускорителей). В ЦПУ не вносит значительного вклада в вычислительную мощность узла. Он просто запускает операционную систему и системные драйверы. Технически ЦП служит корневой комплекс для фабрики PCIe. Коммутатор PCIe расширяет ограниченное количество линий PCIe центрального процессора до 80, что позволяет подключать множество компонентов (4x Xeon Phi и 1x InfiniBand, каждый x16 PCIe) как Конечные точки PCIe. Эта архитектура также позволяет Xeon Phis осуществлять одноранговую связь через PCIe и напрямую обращаться к внешней сети без необходимости проходить через центральный процессор.
Каждый узел QPACE 2 состоит из 248 физических ядер (центральный процессор: 4, Xeon Phi: 61 каждое). Поддержка хост-процессора и ускорителей многопоточность. Количество логических ядер на узел - 984.
Конструкция узла не ограничивается компонентами, используемыми в QPACE 2. В принципе, любые карты, поддерживающие PCIe, например, ускорители, такие как GPU и другие сетевые технологии, кроме InfiniBand, могут использоваться при соблюдении форм-фактора и характеристик мощности.
Сети
Внутриузловая связь осуществляется через коммутатор PCIe без участия центрального процессора. Связь между узлами основана на FDR InfiniBand. Топология сети InfiniBand представляет собой двумерную гипер-перекладину. Это означает, что создается двухмерная сетка коммутаторов InfiniBand, и два порта InfiniBand узла подключены к одному коммутатору в каждом из измерений. Топология гипер-перекладины была впервые введена японским коллаборацией физиков элементарных частиц CP-PACS.[7]
Сеть InfiniBand также используется для ввода / вывода в Файловая система Lustre.
Карта ЦП обеспечивает два Гигабитный Ethernet интерфейсы, которые используются для управления узлами и для загрузки операционной системы.
Охлаждение
Узлы суперкомпьютера QPACE 2 охлаждаются водой с использованием инновационной концепции, основанной на рулонная облигация технологии.[8] Вода протекает через пластину, соединенную роликом из алюминия, которая термически связана с горячими компонентами через алюминиевые или медные промежуточные вставки и термопасту или материал термоинтерфейса. Таким образом охлаждаются все компоненты узла. Эффективность концепции охлаждения позволяет свободное охлаждение весь год.
В синтетических тестах измеренная потребляемая мощность узла составила до 1400 Вт. Для типичных вычислений в решеточной квантовой хромодинамике требуется около 1000 Вт.
Программное обеспечение
Бездисковые узлы работают по стандартному Linux распределение (CentOS 7), который загружается по сети Ethernet. Xeon Phis работают под управлением свободно доступного программного стека Intel Manycore Platform Software Stack (MPSS). Связь InfiniBand основана на OFED stack, который также находится в свободном доступе.
Смотрите также
Рекомендации
- ^ H. Baier et al., PoS LAT2009 (2009) 001, (arXiv:0911.2174)
- ^ Н. Мейер и др., Конспект лекций по информатике 7905 (2013) 383, (arXiv:1309.4887)
- ^ P. Arts et al., PoS LAT2014 (2014) 021, (arXiv:1502.04025)
- ^ Пресс-релиз Евротек
- ^ Список Top500, ноябрь 2015 г., http://top500.org/system/178607
- ^ Список Green500, ноябрь 2015 г., http://green500.org/lists/green201511&green500from=1&green500to=100
- ^ Ю. Ивасаки, Nucl. Phys. Proc. Дополнение 34 (1994) 78, (arXiv:геп-лат / 9401030)
- ^ Дж. Беддоус и М. Бибби, Принципы процессов производства металлов, Elsevier Science (1999).