La nueva arquitectura Nehalem de Intel presenta un controlador de memoria integrado y ejecuta dos subprocesos por núcleo de CPU. Nuestras exhaustivas pruebas comparativas revelan el rendimiento en la práctica de los nuevos procesadores de cuatro núcleos.
Cinco años después de AMD, Intel produjo su primera CPU con un controlador de memoria integrado. El diseño de AMD estaba a la vanguardia en varias áreas, y el líder del mercado Intel ha integrado ideas de su competidor en la nueva arquitectura Nehalem. Hasta ahora, Intel fabricaba sus procesadores de cuatro núcleos a partir de dos matrices de doble núcleo. AMD siempre sostuvo que sólo había una empresa que podía construir núcleos cuádruples reales, una distinción que Intel despreció. Ahora incluso esa distinción se ha perdido: las CPU Nehalem (Core i7) constan de un solo chip.
Pero ese no es el final de la historia. Los procesadores AMD se comunican entre ellos y con los periféricos mediante Hypertransport de AMD, una interconexión conmutada punto a punto que mantiene un alto ancho de banda a través de ad hoc canales independientes. Esa tecnología contrasta con el enfoque de Intel de hacer que los chips utilicen el bus frontal para direccionar no sólo la memoria sino también para conectarse a otros componentes del sistema, compartiendo ese canal entre dispositivos. Esa no es una desventaja real con los sistemas de un solo núcleo, e Intel ha mantenido el rendimiento en sistemas de dos y cuatro núcleos mediante el uso de grandes cantidades de caché.
Sin embargo, esta forma anticuada de comunicación es un cuello de botella para servidores con múltiples sockets. A largo plazo, ni siquiera los 64 MB de caché en chip con filtrado de vigilancia que Intel ofrece en su chipset Xeon 7300 o el caché de nivel 3 de 16 MB introducido recientemente en el Dunnington de seis núcleos podrían ayudar al gigante de los chips a seguir siendo competitivo con AMD en el servidor. campo.
La respuesta de Intel es proporcionar a la arquitectura Nehalem una tecnología llamada Quick Path Interconnect (QPI) que es comparable con Hypertransport. QPI se encuentra en las variantes de escritorio Nehalem, con nombre en código Bloomfield, que estarán disponibles a finales de este mes. La variante de servidor Gainestown para sistemas de dos sockets llegará en el primer trimestre de 2009, según el jefe de Intel, Paul Otellini. Intel planea introducir chips Nehalem para sistemas multiprocesador en la segunda mitad de 2009, y QPI también formará parte de Tukwila, el procesador Itanium de próxima generación, que saldrá a finales de este año.
Funciones de Nehalem, configuración de prueba y consumo de energía
Intel también ha adoptado algunas ideas de virtualización de AMD para la arquitectura Nehalem. Con la introducción del procesador Barcelona, AMD ofreció Rapid Virtualization Indexing (RVI) para permitir el acceso directo a la memoria de las máquinas virtuales. El especialista en virtualización VMware apoyó con entusiasmo la tecnología AMD. La tecnología equivalente en Nehalem de Intel se llama tabla de páginas extendida (EPT).
Además de las ideas tomadas de AMD, los chips Nehalem ofrecen una serie de características adicionales. Por ejemplo, los cuatro núcleos del procesador pueden trabajar en dos subprocesos al mismo tiempo, un refinamiento de la conocida arquitectura Hyperthreading del P4. Además de las cuatro unidades físicas aritméticas y lógicas, también están disponibles otras cuatro unidades lógicas.
A diferencia de los chips equivalentes de AMD, que sólo admiten memoria DDR2/1066 de doble canal, los procesadores Core i7, disponibles oficialmente a partir del 17 de noviembre, ofrecen tres canales DDR3/1066. Así, los chips tienen un ancho de banda de memoria teórico de 25,5 GB/s, frente al máximo de 16 GB/s de los chips AMD. Los procesadores Nehalem individuales se diferencian por la velocidad de la interfaz QPI. En el modelo superior, el Core i7 Extreme 965, QPI funciona a 3,2 GHz, pero sólo alcanza los 2,4 GHz en los modelos más pequeños.
Memoria
Según Intel, los nuevos procesadores Nehalem están especificados con una velocidad de memoria de hasta DDR3/1066, mientras que la arquitectura actual Core 2 puede funcionar con memoria DDR3/1600. Pero según la herramienta de referencia Everest 4.60, el controlador de memoria interna admite hasta 1333MHz. Podría ser que el sistema no funcionara de manera estable en todas las situaciones a esa frecuencia, por lo que Intel optó por la especificación más conservadora. Para un rendimiento óptimo, no se deben utilizar más de tres módulos de memoria. Si se utilizan cuatro DIMM, el rendimiento de la memoria disminuye porque el importante parámetro de memoria Command Rate solo puede manejar dos estados de espera.
Los procesadores Nehalem ofrecen una función de overclocking incorporada llamada Modo Turbo. Si una pieza de software no logra satisfacer todas las exigencias de todos los núcleos, la lógica interna del chip garantiza que los cálculos en los núcleos que están en uso funcionen a una velocidad de reloj más alta. Por último, pero no menos importante, los procesadores Nehalem vienen equipados con SSE4.2, una extensión de conjunto de comandos que podría resultar particularmente útil para acelerar el procesamiento de variables de cadena en los motores de búsqueda. Programas como navegadores, clientes de correo electrónico y programas de procesamiento de textos también podrían beneficiarse del procesamiento más rápido que ofrece SSE4.2.
El consumo de energía
En términos de consumo de energía, el sistema con el núcleo del procesador Nehalem Core i7 965 Extreme ocupa aproximadamente el mismo lugar que el anterior chip de mejor rendimiento de Intel, el Core 2 Extreme QX9775, aunque el procesador Nehalem, con 731 millones de transistores, claramente tiene menos circuitos electrónicos. que el QX9775 con 820 millones. Debido a que la tecnología Hyperthreading hace un uso más intensivo de las unidades aritméticas que con los núcleos de un solo subproceso, consumen la misma potencia en general que los diseños anteriores más complejos a pesar de tener menos transistores.
Consumo de energía (Watts): las barras más cortas son mejores.
Everest 4.60: rendimiento de la memoria
Las pruebas de memoria muestran la rapidez con la que los procesadores se comunican con su entorno. Además del ancho de banda puro, lo interesante aquí son los tiempos de acceso. Cuantos menos ciclos de reloj se necesiten para acceder a una celda de memoria (una medida conocida como latencia), más rápido se podrá leer la celda. Con aplicaciones de bases de datos de gran tamaño, una latencia baja puede tener un impacto positivo en el rendimiento general.
Mientras que los procesadores AMD, con su controlador de memoria integrado, podían igualar a los chips Intel de la era Core-2 en cuanto a acceso a la memoria e incluso ofrecer ventajas, las cosas han cambiado con la llegada de la arquitectura Nehalem. Estos nuevos chips, con su excelente rendimiento de transferencia de memoria y acceso a la memoria, son claramente los de mejor desempeño.
Rendimiento de la memoria (GB/s): las barras más largas son mejores.
Latencia de memoria (nanosegundos): las barras más cortas son mejores.
Everest 4.60: rendimiento de CPU y FPU
En las pruebas de referencia sintéticas del Everest, la nueva arquitectura Nehalem de Intel emerge de manera impresionante como la de mejor desempeño. En algunas pruebas, el Core i7 920 de 2,66 GHz, gracias a su tecnología hyperthreading, incluso supera al Core 2 Extreme QX9775 de 3,2 GHz. La ventaja de Nehalem es particularmente evidente en el punto flotante de referencia SinJulia, que hace pleno uso del hyperthreading.
Rendimiento de la CPU: las barras más largas son mejores.
Rendimiento de punto flotante: las barras más largas son mejores.
VMware Workstation 6.5: rendimiento en entornos virtualizados
Los escritorios virtuales son cada vez más comunes en las empresas. En consecuencia, las pruebas con VMware Workstation 6.5 y los puntos de referencia Winstone basados en aplicaciones son útiles para proporcionar una idea de la eficiencia de los entornos de TI virtualizados. Aunque la prueba de Winstone es algo larga, sigue siendo relevante porque lo que se prueba aquí es la eficiencia de los procesadores involucrados en la virtualización de VMware en lugar del rendimiento de las aplicaciones.
En la prueba, se probaron dos máquinas virtuales (VM) que ejecutaban Windows XP utilizando Content Creation Winstone (CCWS). En cada caso, las VM tienen dos núcleos de CPU a su disposición. También se realizó una prueba con Cinebench R10 en el entorno virtualizado. Se admiten las tecnologías de acceso directo a memoria EPT de Intel y RVI de AMD. Sin embargo, ni los nuevos procesadores Nehalem ni el AMD Phenom funcionan más rápido en este modo de funcionamiento. Según estas pruebas, el chip más rápido para virtualización es el Core 2 Extreme QX9775, que sólo soporta Intel VT.
Es posible que VMware Workstation no esté optimizado para procesadores que ofrecen acceso directo a la memoria para las máquinas virtuales. Por otro lado, también es posible que las pruebas que realizamos no aprovechen al máximo esta tecnología. Se necesitarán más pruebas para aclarar el uso del acceso directo a la memoria.
Pruebas de VMware/Cinebench: las barras más largas son mejores.
Pruebas de VMware/Creación de contenido Winstone: las barras más largas son mejores.
Edición de imágenes: Paint.Net, Autopano pro, Jalbum
Los programas de edición de imágenes utilizan paralelismo avanzado para aprovechar la potencia de los procesadores multinúcleo. Usamos tres programas para probar el rendimiento del Core i7 en esta área: la herramienta gratuita Paint .NET es un eficiente editor de imágenes basado en la interfaz .NET de Microsoft; y su punto de referencia, pdnbench, pone una carga de trabajo completa en los procesadores durante las operaciones de imagen típicas. Autopano Pro, que produce imágenes panorámicas, y Jalbum para galerías de arte HTML proporcionan pruebas adicionales.
Jalbum y Paint .NET aprovechan al máximo las funciones de hiperprocesamiento de los nuevos núcleos cuádruples Nehalem. En ambas pruebas, el Core i7 920 de 2,66 GHz ofrece mejores resultados que el Core 2 Extreme QX9775 de 3,2 GHz. La capacidad de Autopano Pro para utilizar ocho procesadores no parece producir ninguna ventaja, mientras que las versiones de 64 bits de Paint .NET y Autopano Pro son claramente más rápidas que sus equivalentes de 32 bits.
Pruebas de edición de imágenes (segundos): las barras más cortas son mejores.
Codificación de vídeo y sonido.
Las pruebas de codificación de vídeo y sonido muestran que las aplicaciones en este ámbito están lejos de estar optimizadas para procesadores multinúcleo. Por ejemplo, al convertir datos de audio sin procesar en archivos MP3, la versión de iTunes para Windows utiliza sólo dos subprocesos, por lo que las CPU de cuatro núcleos no ofrecen ninguna ventaja de velocidad sobre las alternativas de doble núcleo. La versión para Mac, por el contrario, utiliza cuatro unidades aritméticas y lógicas.
La historia es muy diferente cuando se trata de la herramienta de codificación de vídeo Cyberlink PowerProducer. Debido a que este software admite los dos subprocesos por núcleo de la arquitectura Nehalem, el Core i7 920 de 2,66 GHz ofrece un mejor rendimiento que el Core 2 Extreme QX9775 de 3,2 GHz, que también tiene cuatro núcleos pero solo ejecuta un subproceso por núcleo.
Pruebas de codificación de vídeo/sonido (segundos): las barras más cortas son mejores.
Rendimiento de renderizado
En las pruebas de renderizado, los procesadores Core i7 ofrecen resultados particularmente impresionantes con Povray. Aquí, incluso el Core i7 920 con frecuencia de 2,66 GHz funciona mejor que el QX9775 de cuatro núcleos a 3,2 GHz sin hyperthreading. Con la versión de 32 bits de Cinebench R10, hay poca diferencia entre los dos chips, pero el Core i7 920 lleva la delantera cuando ejecuta la versión de 64 bits.
Pruebas de codificación de vídeo/sonido (segundos): las barras más cortas son mejores.
Pruebas de rendimiento de renderizado: las barras más largas son mejores.
Rendimiento de Internet: pruebas de Javascript
A medida que los sitios web se vuelven más complejos, al utilizar aplicaciones Web 2.0 y AJAX, los navegadores necesitan lidiar con tareas cada vez más complicadas, lo que hace que el rendimiento de la CPU sea más importante. Sin embargo, en nuestras pruebas con Firefox 3.1 beta 1 queda claro que JavaScript no se beneficia de las capacidades informáticas adicionales de los nuevos procesadores Core i7 de Intel.
Pruebas de JavaScript/SunSpider (milisegundos): las barras más cortas son mejores.
Rendimiento de los juegos
La mayoría de los juegos 3D todavía no están optimizados para chips multinúcleo, lo que significa que las tarjetas gráficas siguen siendo el principal factor que afecta el rendimiento del juego. Sin embargo, la prueba de CPU en el benchmark 3DMark Vantage explota varios núcleos y revela grandes diferencias entre los procesadores.
Aun así, la puntuación general de 3DMark no revela ninguna ventaja significativa para los nuevos procesadores Nehalem. En gran medida, este resultado es…