La serie de GPU Instinct de AMD se está volviendo popular en la comunidad informática y de inteligencia artificial. Este es el por qué.

No hay duda de que NVIDIA continúa dominando el espacio de la computación paralela con sus varias series populares de GPU. Pero con los aceleradores Instinct AI de AMD equipando dos de las supercomputadoras más nuevas y más grandes (Frontier y El Capitan) y el creciente apoyo de la comunidad a su plataforma ROCm de código abierto, NVIDIA podría haber encontrado su mayor rival hasta el momento.

Entonces, ¿qué son exactamente los aceleradores Instinct AI de AMD? ¿Qué los hace poderosos y cómo se comparan con las GPU Tensor de NVIDIA?

¿Qué es un procesador AMD Instinct?

Los procesadores Instinct de AMD son hardware de nivel empresarial que se utiliza para computación de alto rendimiento (HPC) y procesamiento acelerado por IA. A diferencia de las GPU regulares de nivel de consumidor, las GPU Instinct están especializadas para manejar mejor el aprendizaje de IA y otras tareas de alto rendimiento a través de innovaciones de software y hardware.

instagram viewer

La serie de GPU Instinct de AMD se utilizó para impulsar la primera supercomputadora que rompió la barrera de la exaescala, con un rendimiento de 1,1 EFLOP en operaciones de doble precisión por segundo. Las supercomputadoras que usan GPU Instinct se utilizan actualmente para investigar tratamientos contra el cáncer, energía sostenible y cambio climático.

Cómo los procesadores Instinct aceleran la IA y la HPC

Para los servidores y supercomputadoras convencionales más poderosos del mundo Para lograr un procesamiento de nivel Exascale, los aceleradores Instinct de AMD tuvieron que estar equipados con varias actualizaciones e innovaciones tecnológicas.

Analicemos algunas de las tecnologías nuevas y actualizadas que se utilizan en las GPU AMD Instinct.

1. Calcular ADN (CDNA)

Haber de imagen: Pascal Liebart/Biblioteca AMD

Los aceleradores AMD Instinct recientes (a partir del MI100) han empleado la arquitectura CDNA de la empresa.

CDNA se centra principalmente en funciones como el procesamiento paralelo, la jerarquía de memoria y el rendimiento informático optimizado a través de su tecnología Matrix Core. Incluso la HPC y la IA o el aprendizaje automático que se ejecutan en servidores individuales pueden ser compatibles con CDNA, así como con enormes computadoras Exascale.

La tecnología Matrix Core de AMD acelera el aprendizaje de IA al admitir operaciones de precisión mixta. La capacidad de calcular con diferente precisión permite que las GPU Instinct calculen de manera eficiente las operaciones matriciales en función del nivel de precisión necesario.

Los formatos de precisión de cálculo más populares incluyen FP64, FP32, FP16, BF16 e INT8. FP significa Punto flotante, BF Punto flotante cerebral e INT Número entero. Cuanto mayor sea el número correspondiente al formato, más preciso será el cálculo. Operar a 64 bits se conoce como doble precisión. Con 32 bits es de precisión simple, con 16 bits es de precisión media, y así sucesivamente.

Dado que una gran parte del entrenamiento de modelos de aprendizaje profundo no requiere mucha precisión, tener la capacidad de calcular matrices las operaciones a media precisión o incluso a un cuarto de precisión para la inferencia reducen significativamente la carga de trabajo, acelerando así la IA aprendiendo.

2. Memoria de alto ancho de banda (HBM)

Haber de imagen: Jason De Vos/Biblioteca AMD

Cada acelerador AMD Instinct AI viene con hasta 880 Matrix Cores. Con los procesadores Matrix Core de AMD capaces de realizar 383 TFLOP de cálculos de precisión media, es necesario contar con una memoria ultrarrápida. Las últimas ofertas de Instinct de AMD vienen equipadas con memoria de alto ancho de banda (HBM) en lugar de la memoria RAM DDR4 o DDR5 habitual.

A diferencia de la memoria convencional, HBM utiliza lo que se conoce como arquitectura apilada en 3D. Este tipo de arquitectura se refiere a un enfoque de diseño en el que las matrices DRAM se apilan verticalmente una encima de la otra. Esto permite que los troqueles se apilen tanto en el eje vertical como en el horizontal, de ahí el término apilamiento 3D.

Con esta tecnología de apilamiento 3D, los HBM pueden tener capacidades de memoria física de unos pocos cientos de gigabytes por módulo, mientras que DRR5 solo puede tener hasta decenas de gigabytes por módulo. Aparte de la capacidad, también se sabe que los HBM tienen un mayor rendimiento en términos de tasa de transferencia y una mejor eficiencia energética que la memoria DDR normal.

3. tela infinita

Otra innovación incluida en las GPU Instinct es la tecnología Infinity Fabric de AMD. Infinity Fabric es un tipo de sistema de interconexión que vincula CPU y GPU de forma dinámica e inteligente. Esto permite que los componentes se comuniquen eficientemente entre sí.

Con Infinity Fabric, en lugar de conectar componentes con un bus regular, los componentes ahora están conectados en una red similar a una malla donde los anchos de banda pueden ser de varios cientos de gigabytes por segundo.

Además de la interconexión similar a una malla, Infinity Fabric también utiliza sensores integrados en cada troquel para dinámicamente controle la frecuencia, las tasas de transferencia de datos y otros comportamientos adaptativos, optimizando el rendimiento y minimizando latencia.

4. Plataforma de desarrollo ROCm

CUDA (arquitectura de dispositivo unificado de cómputo) de NVIDIA es la plataforma de desarrollo más utilizada para entrenar modelos de IA. El problema con CUDA es que solo funciona con GPU NVIDIA. Esta es una de las principales razones por las que NVIDIA tiene la abrumadora mayoría de las cuotas de mercado de los aceleradores de GPU HPC e IA.

Dado que AMD deseaba obtener una porción más grande del mercado de HPC e IA, tuvo que desarrollar su propia plataforma, ROCm (Radeon Open Compute). ROCm es una plataforma de software de código abierto que permite que las GPU Instinct se utilicen como aceleradores de IA.

Aunque no es necesariamente parte del hardware Instinct, ROCm es fundamental cuando se trata de la supervivencia de la línea de GPU Instinct. Con ROCm, los desarrolladores y los investigadores obtienen las herramientas ROCm, el compilador, los controladores del kernel, una gran cantidad de bibliotecas y acceso a marcos como TensorFlow y PyTorch para desarrollar con sus privilegiado Lenguaje de programación de IA.

¿Cómo se comparan los aceleradores Instinct AI con los aceleradores Radeon GPU AI?

AMD ofrece su línea Instinct de GPU para empresas y GPU Radeon para consumidores habituales. Como se mencionó anteriormente, la GPU Instinct utiliza la arquitectura CDNA de AMD, HBM e interconexión Infinity Fabric. Por el contrario, Radeon utiliza la arquitectura RDNA de AMD, la memoria DDR6 e Infinity Cache.

Aunque menos capaces, la serie Radeon de aceleradores de IA sigue teniendo un gran impacto al implementar uno o dos núcleos de acelerador de IA por unidad de cómputo. Lo último GPU Radeon RX7900XT tiene dos núcleos aceleradores de IA por unidad de cómputo, lo que permite 103 TFLOP de pico de semiprecisión y 52 TFLOP de pico de cómputo de precisión simple.

Si bien la serie de GPU Instinct es más adecuada para LLM y HPC, los aceleradores Radeon AI se pueden usar para ajustar modelos preentrenados, inferencias y tareas con uso intensivo de gráficos.

Instinto AMD vs. Tensor de NVIDIA

De acuerdo a un Encuesta TrendForce, NVIDIA tiene una cuota de mercado del 80 % para las GPU de servidor, mientras que AMD solo tiene el 20 %. Este éxito abrumador de NVIDIA se debe a que es una empresa que se especializa en el diseño y ensamblaje de GPU. Esto les permite diseñar GPU con un rendimiento significativamente mejor sin precedentes en otras ofertas.

Comparemos el Instinct MI205X de AMD y el H100SXM5 de NVIDIA utilizando las especificaciones de Sitio web oficial de AMD y Hoja de datos propia de NVIDIA:

Modelo de GPU

FP64 (TFLOP)

FP32 (TFLOP)

FP16 (TFLOP)

INT8 (TFLOP)

AMD instinto MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Como puede ver en la tabla, el MI250X de AMD funciona mejor en términos de doble precisión y media precisión. cálculos, mientras que el H100SXMS de NVIDIA es mucho mejor en términos de matriz de precisión media y precisión de un cuarto calculos Esto hace que el MI250X de AMD sea más adecuado para HPC, mientras que el H100SXMS de NVIDIA con aprendizaje e inferencia de IA.

El futuro de los procesadores Instinct de AMD

Aunque la última oferta de AMD, el MI250X, está diseñado para HPC, su próximo MI300 está más orientado al entrenamiento de IA. Se anuncia que este acelerador de IA es una APU que combina GPU y CPU en un solo paquete. Esto permite que el MI300 use su arquitectura APU de memoria unificada CNDA3, donde la GPU y la CPU solo usarán una memoria, aumentando la eficiencia y reduciendo el precio.

Aunque AMD no competirá hoy con NVIDIA en el mercado de aceleradores de IA, una vez que se lance el MI300 y ROCm se convierta en pulida, la serie Instinct de AMD podría ser lo suficientemente buena como para arrebatarle una parte significativa del mercado de aceleradores de IA. NVIDIA.