Imagen: NVIDIA
Por 400.000 dólares, podrías conseguir alrededor de 400 teléfonos iPhone X, 300 portátiles Surface Pro o 11 coches eléctricos Tesla Serie 3. Pero se necesitarían 400 mil dólares y más para tener en sus manos un solo servidor Nvidia DGX-2, que se anuncia como “el sistema de inteligencia artificial más poderoso del mundo para los desafíos de inteligencia artificial más complejos”.
Pero, ¿el DGX-2 está a la altura de esa afirmación? ¿Y algún servidor realmente vale un precio tan deslumbrante?
DGX continúa
Para responder a esas preguntas, primero debe comprender que el DGX-2 no es el primer servidor Nvidia estándar dirigido a la IA. Ese honor es para el DGX-1, basado en una combinación de procesadores Intel Xeon combinados con las GPU de arquitectura Tesla V100 Volta optimizadas para IA de Nvidia. El DGX-2 continúa con ese enfoque, pero en lugar de ocho Tesla V100 unidos mediante el bus NVLink de Nvidia, el DGX-2 viene con 16 de estas potentes GPU conectadas mediante su tecnología NVswitch más escalable. Según Nvidia, esta configuración permite al DGX-2 manejar el aprendizaje profundo y otras cargas de trabajo exigentes de IA y HPC hasta 10 veces más rápido que su hermano menor.
Aunque se anunció al mismo tiempo que el DGX-1, el modelo más grande tardó seis meses más en aparecer. Uno de los primeros en llegar al Reino Unido se instaló en los laboratorios del socio de Nvidia, Boston Limited. Nos preguntaron si nos gustaría echar un vistazo: lo hicimos y esto es lo que encontramos.
El DGX-2 'sin caja'
El DGX-2 es grande y se esconde detrás de un imponente bisel dorado con acabado craquelado.
Imagen: Alan Stevens/
Además del rendimiento, el tamaño es un gran diferenciador del DGX-2, que tiene el mismo bisel dorado con acabado craquelado que el DGX-1 pero es físicamente mucho más grande, con un peso de 154,2 kg (340 lb) en comparación con 60,8 kg ( 134 libras) para el DGX-1 y consume 10 unidades de rack en lugar de 3.
Esta imagen muestra la parte posterior del chasis 10U DGX-2 con ranuras para dos bandejas de GPU (solo una en el lugar), con ranuras vacías para servidor y bandeja PCIe debajo, además de tres fuentes de alimentación intercambiables en caliente a cada lado.
Imagen: Alan Stevens/
Se necesita atención especial a la alimentación y la refrigeración, especialmente en una rejilla mixta. Aquí, junto con algunos cables de red perdidos, se muestra cómo se alimenta la energía al bastidor de los laboratorios de Boston.
Imagen: Alan Stevens/
También vale la pena señalar que el DGX-2 necesita mucha más potencia que su hermano pequeño, requiriendo hasta 10kW a máxima potencia, aumentando a 12kW para el modelo DGX-2H recientemente anunciado (sobre el cual hablaremos más adelante). La siguiente imagen muestra los arreglos de energía necesarios en Boston para mantener feliz a esta pequeña bestia. De manera similar, la refrigeración requerirá una cuidadosa consideración, especialmente cuando se implementa más de un DGX-2 o cuando se instala junto con otro hardware en el mismo rack.
La distribución de esa energía es un conjunto de seis fuentes de alimentación redundantes y de intercambio en caliente que se deslizan en la parte trasera del chasis junto con los distintos módulos que componen el resto del sistema. Mientras tanto, la refrigeración está a cargo de una serie de 10 ventiladores ubicados detrás del bisel frontal con espacio a cada lado para 16 dispositivos de almacenamiento de 2,5 pulgadas en dos bancos de ocho.
Con 8 SSD NVMe, el DGX-2 viene con 30 TB de almacenamiento, lo que deja ocho bahías libres para expansión.
Imagen: Alan Stevens/
Nvidia incluye ocho unidades NVMe Micron 9200 Pro de 3,84 TB como parte de la configuración básica, lo que equivale a poco más de 30 TB de almacenamiento de alto rendimiento. Sin embargo, esto es principalmente para manejar datos locales, con almacenamiento adicional en la placa base principal para el sistema operativo y el código de la aplicación. También deja ocho bahías vacías para agregar más almacenamiento si es necesario. Además, el DGX-2 está repleto de interfaces de red de gran ancho de banda para conectarse a una capacidad aún mayor y crear clústeres de servidores si es necesario.
Los bits de Intel
En la placa base DGX-2 se configuran un par de procesadores Xeon Platinum de 24 núcleos, 1,5 TB de RAM y un par de adaptadores de almacenamiento NVMe.
Imagen: Alan Stevens/
Saque la bandeja del servidor principal y en su interior encontrará una placa base basada en Intel de aspecto convencional con dos zócalos para chips Xeon Platinum. En el sistema que analizamos, estos eran procesadores Xeon Platinum 8168 de 24 núcleos con frecuencia de 2,7 GHz, aunque desde entonces Nvidia ha anunciado el modelo DGX-2H con procesadores Xeon Platinum 8174 de 3,1 GHz ligeramente más rápidos junto con módulos Volta 100 de 450 W más nuevos. Esto se consigue a costa de requerir mucha más potencia (hasta 12 kW) y probablemente aumentará el coste total, aunque al momento de escribir este artículo el precio de este nuevo modelo aún no se había confirmado.
Independientemente de la especificación, los procesadores Xeon se ubican en el medio de la placa base rodeados por 24 ranuras DIMM completamente ocupadas, lo que brinda a los compradores una impresionante memoria RAM DDR4 de 1,5 TB para jugar. Junto a esto, hay un par de dispositivos de almacenamiento NVMe de 960 GB configurados como una matriz RAID 1 para iniciar el sistema operativo (Ubuntu Linux) y proporcionar espacio para la pila de software DGX y otras aplicaciones.
Los controladores de red y USB habituales también están integrados, con dos puertos Gigabit RJ-45 en la parte posterior, uno para administración remota fuera de banda y el otro para conectividad general. Una de las dos ranuras de expansión PCIe disponibles también viene equipada con un adaptador Mellanox ConnectX-5 de doble puerto que puede acomodar transceptores Ethernet de hasta 100 GbE para un ancho de banda de red adicional.
Además de dos puertos Gigabit Ethernet integrados, un adaptador Mellanox PCIe proporciona dos puertos Ethernet más que pueden admitir transceptores de 10 a 100 GbE.
Imagen: Alan Stevens/
La segunda ranura de expansión PCIe suele estar vacía, pero hay aún más conectividad disponible gracias a la bandeja PCIe separada que se encuentra justo encima de la placa base del servidor. Esto agrega otras ocho interfaces PCIe llenas, nuevamente, con adaptadores Mellanox que se pueden usar para conectarse al almacenamiento en clúster mediante transceptores Ethernet 10GbE o InfiniBand EDR 100.
Otros ocho puertos Ethernet o Infiniband están disponibles a través de la bandeja PCIe.
Imagen: Alan Stevens/
Las partes de Nvidia
Y ahora, lo que todos estaban esperando: las 16 GPU Nvidia Tesla V100 que, en parte debido a sus grandes disipadores de calor (ver más abajo), deben dividirse en dos placas base.
Como recordatorio, así es como se ve un módulo Tesla Volta 100:
Imagen: NVIDIA
Y así es como se ven ocho módulos Volta 100 cuando se instalan dentro de una de las bandejas de GPU de un DGX-2:
Las 16 GPU Tesla V100 se dividen en dos placas base junto con el hardware NVswitch necesario para conectarlas.
Imagen: Alan Stevens/
Las placas GPU también contienen los NVswitches que deben unirse físicamente para que los módulos Volta 100 se comuniquen y funcionen como una sola GPU. Esto se logra colocando dos paneles posteriores de diseño personalizado en la parte posterior de los zócalos una vez que se han insertado en el chasis.
Los interruptores NV en las dos placas base de GPU están físicamente unidos por estos paneles posteriores de aspecto diabólico, que se conectan en la parte trasera.
Imagen: Alan Stevens/
Las GPU Tesla V100 son prácticamente los mismos módulos SXM que los del último DGX-1. Cada uno está equipado con 32 GB de memoria HBM2 por GPU, por lo que con dieciséis instaladas hay el doble de memoria de GPU (512 GB) en total.
Cada GPU también tiene 5120 núcleos de procesamiento CUDA, así como 640 núcleos Tensor más especializados optimizados para IA. Multiplicado por dieciséis, da 10,240 núcleos Tensor en total y la friolera de 81,920 equivalentes CUDA. Todo lo cual genera una gran potencia de procesamiento, que se ve reforzada aún más por el ancho de banda de interconexión de 2,4 TB/seg disponible en la tecnología NVSwitch con capacidad de escalar aún más en el futuro.
Rendimiento para ir
Hasta aquí, entonces, en cuanto al hardware. Además de esto, también obtienes una gran cantidad de herramientas de IA preinstaladas, listas para encenderse y comenzar a trabajar.
Al revisar un servidor, es en este punto que normalmente comenzamos a hablar sobre el rendimiento y los resultados de las pruebas que normalmente ejecutamos para ver cómo se compara. Sin embargo, ejecutar pruebas comparativas en el DGX-2 no es una tarea trivial que, dado el tipo de aprendizaje profundo y otras cargas de trabajo de HPC involucradas, requeriría largas sesiones durante varios días. Así que tendremos que confiar en las afirmaciones de Nvidia, junto con los comentarios de los expertos de Boston.
Imagen: NVIDIA
Con este fin, la cifra principal para el DGX-2 es una impresionante potencia de procesamiento de 2 petaFLOPS (PFLOPS) proporcionada principalmente por los núcleos Tensor para manejar cargas de trabajo mixtas de entrenamiento de IA. Esta cifra aumenta a 2,1 PFLOPS en el DGX-2H utilizando módulos Tesla V100 de 450 W más rápidos.
Para poner esto en perspectiva, esta potencia de procesamiento permitió al DGX-2 completar el punto de referencia FairSeq PyTorch en solo 1,5 días, es decir, 10 veces más rápido que los 15 días necesarios para la misma prueba en el DGX-1 apenas seis meses antes. Además, Nvidia calcula que para obtener los mismos resultados utilizando la tecnología x86 se necesitarían 300 servidores Xeon de doble socket, que ocuparían 15 racks y costarían alrededor de 2,7 millones de dólares.
VER: Cómo implementar la IA y el aprendizaje automático (Informe especial de ) | Descargue el informe en formato PDF (República Tecnológica)
Todo lo cual hace que el DGX-2 parezca una ganga por alrededor de $400,000 (o el equivalente en GB£), incluso cuando se agrega el costo de soporte, que, en el Reino Unido, comienza en alrededor de £26,000 (sin IVA). ) por año. A pesar del alto precio, las empresas que ya invierten en IA lo encontrarán muy asequible en comparación con las alternativas, que incluyen alquilar tiempo de cómputo en centros de datos compartidos o en la nube. Nvidia también desea enfatizar que el DGX-2 también se puede usar para manejar cargas de trabajo HPC menos exóticas junto con sus tareas de IA.
Tenga en cuenta también que, aunque el DGX-1 y el DGX-2 son innovadores, hay alternativas en camino de otros proveedores. No menos importante es SuperMicro, que en su sitio web ya incluye un servidor basado en el mismo modelo de referencia Nvidia HGX-2 que el DGX-2. Otros, como Lenovo, no se quedan atrás y estas alternativas inevitablemente funcionarán para bajar los precios. Estaremos siguiendo estos desarrollos a lo largo de 2019.
CONTENIDO RECIENTE Y RELACIONADO
IBM y Nvidia se unen para crear un sistema de almacenamiento convergente optimizado para IA
IBM Spectrum AI con Nvidia DGX está diseñado para cargas de trabajo de IA y aprendizaje automático.
Los resultados del benchmark MLPerf muestran los mejores tiempos de entrenamiento de IA de Nvidia
Para el primer lanzamiento de MLPerf, un conjunto objetivo de evaluación comparativa de IA, Nvidia logró los mejores resultados en seis categorías.
Nvidia pretende ejecutar redes neuronales de forma más rápida y eficiente
A medida que los datos crecen y los modelos crecen, el aprendizaje profundo vuelve a estar “completamente controlado por el hardware”. En los Simposios VLSI, Nvidia sugirió algunas formas de abordar este problema.
Nvidia presenta HGX-2, una plataforma de servidor para cargas de trabajo de HPC e IA
Las capacidades informáticas de alta precisión únicas de la plataforma están diseñadas para el creciente número de aplicaciones que combinan informática de alto rendimiento con IA.
Computación GPU: acelerando la curva de aprendizaje profundo
Para construir y entrenar redes neuronales profundas se necesitan grandes cantidades de potencia informática multinúcleo. Examinamos las principales soluciones basadas en GPU de Nvidia y Boston Limited.
Las habilidades de IA reinan en los empleos de más rápido crecimiento del año (República Tecnológica)
Según LinkedIn, seis de los 15 principales empleos emergentes en 2018 estaban relacionados con la inteligencia artificial.
Nvidia describe una plataforma de inferencia y convierte a los gigantes industriales de Japón en clientes de IA y robótica (República Tecnológica)
La noticia destaca la tracción de Nvidia en la IA y el centro de datos.