По всем вопросам
Пн - Пт 9:00 - 19:00
Часы работы по мск
0
0
Отправить ТЗ

Обзор Ampere AmpereOne A192-32X

Категория
Обзоры
Дата
Ноябрь 6, 2024

AmpereOne A192-32X: Обзор 192-ядерного ARM-процессора для облака
AmpereOne A192-32X важно рассматривать в контексте. Это 192-ядерный процессор с тактовой частотой 3,2 ГГц (отсюда и название A192-32X), который по меркам 2024 года кажется заурядным. Предположительно, он был впервые продан в 2022–2023 годах, в основном в Oracle Cloud. Поскольку изначально он предназначался для облачных провайдеров, другим клиентам потребовалось немало времени, чтобы получить его. В 2024 году ситуация изменилась, и теперь у нас есть такие серверы, как Supermicro MegaDC ARS-211M-NR.

Ampere AmpereOne A192 32X в корпусе Supermicro с разъёмом LGA5964 2

Может показаться, что это не так уж важно, но это разница между выходом AmpereOne на корпоративный рынок с 192 ядрами, когда это было много, и сегодняшним днём, когда у Intel 144 энергоэффективных ядра мощностью 250 Вт, а в следующем квартале будет 128 энергоэффективных ядер (256 потоков) в третьем квартале 2024 года. AMD, со своей стороны, в начале четвёртого квартала будет предлагать 192 ядра/384 потока на сокет. Или скажем так. В 2022–2023 годах 192-ядерный процессор Arm был чем-то из ряда вон выходящим. В 2024 году команда разработчиков x86 в значительной степени наверстала упущенное.
Выход AmpereOne A192 32X Lscpu
Компания Ampere нацелена на создание чипа, который можно будет разделить на части с помощью контейнеров или виртуальных машин для одновременного использования несколькими клиентами. Несмотря на все заявления о производительности, давайте на минутку задумаемся. Ampere не пытается создать процессор для высокопроизводительных вычислений. Это облачный чип.
AMD EPYC Siena Bergamo Ampere AmpereOne Intel Xeon 6700E Sierra Forest 1

Одной из областей, в которой Ampere превзошёл AmpereOne, является ценообразование. Цена на AmpereOne выше, чем на Altra Max, но производительность выше. Тем не менее Intel, AMD и NVIDIA ни в коем случае не считают предельную цену в 10 000 долларов за свои чипы завышенной.
Список артикулов и цен AmpereOne

Ещё одно важное отличие AmpereOne от Altra Max заключается в том, что набор функций был значительно переработан. Это исходный слайд 2022 года, A192-32X — это процессор мощностью 400 Вт. Тем не менее в AmpereOne появились такие функции, как вложенная виртуализация. Мы также получаем поддержку PCIe Gen5 и DDR5.
Продукция Ampere Altra и AmpereOne

Центральный чип, который вы видите, содержит ядра и кэш-память, изготовленные по 5-нм техпроцессу TSMC. Вокруг этого основного чипа расположены чипы меньшего размера, отвечающие за подключение PCIe и DDR5. В конечном счёте с AmpereOne M компания Ampere добавит ещё два чипа DDR5 и получит 12-канальный DDR5, соответствующий стандартам AMD и Intel. На данный момент мы рассматриваем 8-канальный процессор DDR5.

Ampere AmpereOne Горячие чипсы 2024_Страница_10

Другие преимущества облачной архитектуры связаны с ядрами и кэшем. Центральная вычислительная часть представляет собой массив из 192 ядер в 24 8-ядерных кластерах. Каждое ядро имеет собственный кэш второго уровня объемом 2 МБ и не использует технологию SMT. Таким образом, одно ядро — это один поток. Для организаций, обеспокоенных будущими уязвимостями Spectre/Meltdown, такой подход с одним ядром/одним потоком является защитой. Примечательно, что Intel и NVIDIA также используют этот подход.
Топология Supermicro MegaDC ARS 211M NR Ampere AmpereOne A192 32X базовая конфигурация

Одно из существенных отличий этого чипа от Intel Xeon 6 Granite Rapids-AP (или даже Sapphire Rapids/Emerald Rapids) или AMD EPYC 9005 «Turin» заключается в наличии крошечного общего кэша L3 объёмом 64 МБ. Это намного меньше, чем даже у 144-ядерного Intel Xeon 6700E, и ничтожно мало по сравнению с кэшем L3 от AMD. Опять же, эта технология предназначена для разделения и продажи нескольким клиентам, поэтому в этой модели может быть сложно реализовать большой общий кэш L3. Кроме того, большой кэш L3 занимает много места на кристалле.
Тем не менее одним из преимуществ такого подхода является то, что задержка между ядрами может быть меньше, чем у Intel и AMD, поскольку используется единая вычислительная ячейка.
Ampere AmpereOne A192 32X C2C Задержка при запуске 1 Результаты

Производительность Supermicro MegaDC ARS-211M-NR
Теперь о том, что интересует всех: давайте немного поговорим о том, что происходит, когда вы получаете процессор Ampere AmpereOne A192-32X. В нём 192 ядра без SMT, то есть 192 потока. Это похоже на Intel Xeon 6 6700E Sierra Forest в том смысле, что SMT отсутствует, и это скорее E-ядро, чем P-ядро на языке x86.
Одна из областей, в которой этот процессор показывает себя с наилучшей стороны, — это работа всех ядер на частоте 3,2 ГГц. Это стресс-тест для 192 ядер, и тактовая частота 3,2 ГГц распространяется на все 192 ядра.
AmpereOne A192, 32 ядра, 3,2 ГГц, стресс-тест всех ядер, небольшой

В некоторых серверных процессорах можно заметить, что одни ядра работают быстрее, а другие — немного медленнее. AmpereOne спроектирован таким образом, чтобы все ядра могли работать с одинаковой скоростью. Так было особенно в прошлых поколениях. Начиная с серии AMD EPYC Bergamo, мы наблюдаем аналогичное поведение в некоторых конкурирующих архитектурах x86.

Результаты SPEC CPU2017
SPEC CPU2017 — это, пожалуй, самый известный и часто используемый бенчмарк в серверных RFP. Мы проводим собственное тестирование SPEC CPU2017, и наши результаты обычно на несколько процентных пунктов ниже, чем официальные результаты OEM-производителей. Разница составляет примерно 5 % из-за всей той работы по оптимизации, которую проводят OEM-производители для этих важных бенчмарков. Поскольку на данный момент есть официальные цифры, логично использовать их, если мы говорим об отраслевом бенчмарке.
Ampere AmpereOne A192-32X SPECrate2017_int_base Результаты

Здесь мы используем официальные результаты, а значит, речь идёт об оптимизированных компиляторах. Ampere предлагает использовать только gcc и приводит свои цифры для сравнения с показателями AMD и Intel в этом тесте. Это всё равно что спорить о религии.
Кто-то может возразить, что GCC — это наименьший общий знаменатель, и это правильный подход. С другой стороны, крупнейшая компания по производству чипов, NVIDIA, добилась таких результатов с помощью CUDA и оптимизированной цепочки инструментов. Если мы скажем, что нам нужно использовать GCC, значит ли это, что нам нужно отказаться от использования инструментов NVIDIA для оценки производительности ИИ? Мы считаем, что, поскольку официальные результаты не зависят от используемого компилятора, мы должны придерживаться этой методологии.
Во-первых, разница в производительности между Altra Max и AmpereOne огромна. На 50 % больше ядер, но производительность выросла почти вдвое.
Если сравнивать результаты с AMD, то Turin Dense просто монстр. У AMD в два раза выше производительность на сокет и в два раза больше потоков. Ampere может похвастаться компиляторами, а соотношение 1 ядро/1 поток позволяет запускать 192 виртуальные машины с 1 виртуальным ЦП на процессор. AMD, скорее всего, возразит, что может запускать 192 виртуальные машины с 2 виртуальными ЦП на процессор.
По сравнению с Intel, которая снова использует другой компилятор, 144-ядерный Intel Xeon 6780E очень близок к ней. Ampere может работать с 192 виртуальными машинами с 1 виртуальным процессором на ядро, в то время как Intel — только с 144. Если вы являетесь поставщиком облачных услуг, то чем больше виртуальных процессоров, тем больше клиентов на одну систему.
Учитывая, что Sierra Forest-AP выйдет в первом квартале 2025 года, можно предположить, что 288-ядерная часть будет иметь производительность 1250–1410. AmpereOne M, если он будет линейно масштабироваться до 256 ядер, будет иметь производительность 936. Это близко к 128-ядерной/256-поточной части AMD EPYC Bergamo.

Производительность STH nginx CDN
В тесте nginx CDN мы используем старый снимок и шаблоны доступа с веб-сайта STH с отключенным кэшированием DRAM, чтобы показать, как выглядит процесс извлечения данных с дисков с точки зрения производительности. Для этого требуется низкая задержка при работе nginx, но при этом требуется дополнительный этап доступа к вводу-выводу с низкой задержкой, что делает этот процесс интересным на уровне сервера. Вот краткий обзор дистрибутива:
Ampere AmpereOne A192-32X STH nginx CDN
Несколько слов о Энергопотреблении
Мы подробно рассмотрели энергопотребление платформы AmpereOne, которую мы используем в обзоре Supermicro MegaDC ARS-211M-NR. Главный вывод заключается в том, что энергопотребление в режиме ожидания было довольно высоким по сравнению с платформой Xeon 6700E или платформой AMD EPYC 9005. Разница была не в 10–20 Вт, а в 70 Вт и более, что очень заметно для односокетной системы.
Supermicro AmpereOne OpenBMC, мощность в режиме ожидания 242 Вт
Supermicro AmpereOne OpenBMC, мощность в режиме ожидания 242 Вт
При полной нагрузке с процессором AmpereOne A192-32A мощностью 400 Вт AMD EPYC Turin 9965 будет потреблять больше энергии, но не более чем на 100 Вт. Intel Xeon 6780E — это платформа с более низким энергопотреблением, TDP составляет 330 Вт. На это можно посмотреть с двух точек зрения. Во-первых, AMD и Intel в значительной степени сократили разрыв в производительности на ватт по сравнению с Ampere. С другой стороны, AmpereOne, выпущенный в 2022–2023 годах, был бы намного опережающим своё время. Его главная проблема заключается в том, что он станет общедоступным за пределами облачных провайдеров только в 2024 году, так что у него другой набор конкурентов. 


Ключевые выводы: конкуренция Intel
Во-первых, Intel Xeon 6700E выглядит очень неплохо. Intel конкурентоспособна с точки зрения производительности. E-ядра Intel как минимум не уступают ядрам AmpereOne. Можно отдать предпочтение AmpereOne, но в то же время это было бы недальновидно. На данный момент тот факт, что у Ampere 192 ядра, в то время как Intel Xeon 6700E ограничен 144 ядрами, является большим преимуществом для Ampere. У Ampere больше ядер, поэтому он выигрывает там. Тем не менее, Intel в значительной степени сократила отставание.
Ampere AmpereOne Intel Xeon 6700E Sierra Forest 2

С другой стороны, Intel Xeon 6766E впечатляет. У этой модели с TDP 250 Вт показатель SPEC CPU2017 int_rate составляет около 1320 в конфигурации с двумя сокетами, то есть около 660 на процессор по сравнению с 702 у AmpereOne, но при TDP 400 Вт. Опять же, разные компиляторы. Тем не менее для многих снижение производительности на 6 % при TDP 150 Вт будет оправданным. Компания Intel проделала хорошую работу, сократив разрыв между энергопотреблением и производительностью.
Возможно, ещё одним важным фактором является стоимость. AmpereOne с 192 ядрами стоит вдвое дешевле, чем Intel Xeon 6780E. 

Ключевые выводы: конкуренция с AMD
У крупных чипов AMD более высокая прейскурантная цена, но серия AMD EPYC 9005 «Турин» очень хороша. Возможно, для этого есть веская причина. AmpereOne на самом деле должен был стать конкурентом AMD EPYC 9754 «Бергамо», а не Turin Dense. Если вспомнить, что в 2023 году Ampere поставляла AmpereOne таким клиентам, как Oracle Cloud, то это становится гораздо более логичным. 8-канальный процессор AmpereOne не был предназначен для конкуренции с процессором Turin Dense, имеющим 192 ядра и 384 потока.
AMD EPYC Бергамо Ампер АмперУан 1

Как и в случае с Intel, прейскурантная цена AMD в Турине намного выше, чем у AmpereOne. Тем не менее на данный момент было бы сложно утверждать, что AMD или Intel неконкурентоспособны в этой сфере. Вероятно, это связано с тем, что нам нужно увидеть AmpereOne M.

Ключевые выводы: конкуренция с NVIDIA
NVIDIA здесь выступает в роли «подстановочного символа». 
Lenovo HR650N с внутренним графическим процессором NVIDIA Grace Grace Superchip 1

У NVIDIA есть продукт для искусственного интеллекта, который сейчас пользуется большим спросом на рынке, и это подтолкнёт людей к использованию Arm. Архитектура Grace — достойная альтернатива P-ядерным процессорам x86, особенно если у этих процессоров меньше ядер. NVIDIA не работает в сфере облачных вычислений с большим количеством ядер, даже несмотря на свой суперчип Grace с 144 ядрами.
Мы не видим рынка для AmpereOne в высокопроизводительных системах для обучения и логического вывода HGX B100/ HGX B200. В то же время, поскольку NVIDIA продвигает Arm среди своих клиентов и в экосистеме, одними из наиболее оптимизированных приложений для Arm на данный момент являются веб-серверы, на которые нацелен AmpereOne.
Дело в том, что если вам нужна локальная архитектура Arm, то вы покупаете либо NVIDIA, либо Ampere, и оба производителя ориентируются на противоположные крайности в спектре производительности на ядро.

Ключевые выводы: конкуренция в сфере облачных технологий
Облако — это не что иное, как поле битвы для Ampere. Основная проблема Ampere заключается в том, что крупные гиперскейлеры создают собственные чипы. Такие компании, как Microsoft с Azure Cobalt 100, могут использовать Arm Neoverse CSS для создания собственных разработок. AWS выходит на новый уровень с Graviton.
Amazon AWS Graviton4

Четыре года назад Ampere выигрывала у гиперскейлеров с помощью Altra / Altra Max. Вероятно, ей нужно переориентироваться на локальную миграцию для репатриации. Для сравнения: если у вас есть инстанс на базе Arm, работающий в Microsoft Azure, AWS, GCP или даже в облаке Oracle, и вы хотите перенести рабочую нагрузку локально или в колокейшн-центр, вам понадобится сервер на базе Arm. NVIDIA специализируется на продаже графических процессоров для ИИ и использует для этого центральные процессоры. Локальный вариант репатриации облачной рабочей нагрузки выглядит несколько странно. У большинства поставщиков есть платформа NVIDIA MGX для Grace, но она рассчитана на более высокую производительность. Если вы хотите репатриации чего-то вроде веб-сервера, то вам подойдёт Ampere. У таких компаний, как Gigabyte и Supermicro, есть платформы Ampere Altra и AmpereOne. У HPE есть Altra (Max) в HPE ProLiant RL300 Gen11. Если вы работаете в магазине Dell или Lenovo (в США), вам будет сложнее найти сервер на базе архитектуры Arm, отличной от NVIDIA.
AmpereOne фактически занимает эту нишу на рынке. Гораздо сложнее заключить сделку на поставку от нескольких до нескольких тысяч процессоров, чем на поставку 25 000 процессоров. Теперь вопрос в том, сосредоточится ли Ampere на предоставлении пользователям доступа к облачным инстансам Arm.

Заключительные слова
Является ли AmpereOne самым быстрым процессором, который можно купить в четвёртом квартале 2024 года? Нет. Он и не претендует на это. Вместо этого он представляет собой конструкцию на базе архитектуры Arm, которая предлагает 192 ядра с энергопотреблением чуть более 2 Вт на ядро. Одна из серьёзных проблем заключается в том, что мы всегда оцениваем производительность целых чипов. На самом деле они используются в облачных инстансах, состоящих в основном из 8 виртуальных ЦП или меньшего их количества. Скорее всего, эти экземпляры работают с низкой загрузкой процессора, и более мощное и быстрое ядро будет просто лишним.
Ampere AmpereOne A192 32X в корпусе Supermicro с разъёмом LGA5964, открытый 2

В целом в наши дни легко использовать процессоры Arm, но это не значит, что затраты на переход будут нулевыми. Затраты есть, просто они намного меньше, чем раньше. NVIDIA и облачные провайдеры, продвигающие процессоры Arm, со временем помогут снизить затраты на переход.
В целом, учитывая, что это процессор 2022–2023 годов, который мы рассматриваем в 2024 году, AmpereOne хорош. Однако, возможно, более важным выводом будет то, что AmpereOne — единственный вариант, если вы не работаете в компании, которая может производить собственные чипы, но хочет использовать облачную архитектуру Arm. Иногда быть единственным в своём роде — это здорово.

Источник: ServeTheHome


Главная Каталог 0 Сравнение
0 Корзина
Кабинет