NVIDIA Vera: la CPU que impulsa la nueva ola de IA agéntica

Portada » Noticias » NVIDIA Vera, la CPU que pone a la IA agéntica en el centro del centro de datos

Vera es la primera CPU de NVIDIA diseñada específicamente para IA agéntica y aprendizaje por refuerzo, con 88 núcleos Olympus y memoria LPDDR5X de gran ancho de banda.
Los racks con 256 CPU Vera y la interconexión NVLink‑C2C permiten desplegar decenas de miles de entornos agénticos simultáneos con hasta un 50% más rendimiento que las CPU de rack tradicionales.
La plataforma Vera Rubin combina CPU Vera, GPU Rubin, BlueField‑4 STX, Groq 3 LPX y Spectrum‑6 SPX para crear factorías de IA a escala de rack con un gran foco en eficiencia energética.
Los primeros sistemas basados en Vera llegarán en la segunda mitad de 2026 de la mano de grandes nubes públicas y fabricantes como AWS, Google Cloud, Azure, Oracle, Dell, HPE, Lenovo o Supermicro.

La irrupción de la CPU NVIDIA Vera marca un cambio de etapa en cómo se diseñan los centros de datos para IA. Hasta ahora, buena parte del protagonismo recaía en las GPU, pero el auge de la IA agéntica y el aprendizaje por refuerzo ha puesto en evidencia que la coordinación, el contexto y la orquestación también necesitan un procesador a la altura.

Durante el GTC 2026, NVIDIA ha detallado una estrategia en la que Vera deja de ser un simple acompañante de la GPU para convertirse en el cerebro que gestiona miles de agentes, herramientas y entornos concurrentes en tiempo real. La compañía propone un modelo de “factoría de IA” a escala de rack, pensado tanto para grandes proveedores cloud globales como para centros de datos empresariales en Europa que necesiten desplegar sistemas autónomos complejos.

Una CPU pensada para la era de la IA agéntica

Vera se presenta como la primera CPU específicamente diseñada para IA agéntica y flujos de aprendizaje por refuerzo. Su papel es cubrir el cuello de botella que se ha ido generando en la capa que coordina agentes, mueve datos, ejecuta herramientas, valida resultados y mantiene miles de entornos en paralelo, un escenario muy distinto al de los modelos de chat tradicionales.

En lugar de apoyarse en núcleos genéricos, NVIDIA ha desarrollado 88 núcleos Olympus propios, compatibles con Armv9.2 y preparados para trabajar con formatos como FP8. Cada núcleo puede ejecutar dos hilos de trabajo gracias a la tecnología Spatial Multithreading, lo que permite un rendimiento estable y predecible incluso cuando se disparan las tareas auxiliares típicas de una fábrica de IA multitenant.

Este diseño apunta directamente a cargas de trabajo donde es crítico mantener una baja latencia y un comportamiento muy determinista: compiladores, runtimes de agentes, canalizaciones de análisis, servicios de orquestación y validación de resultados generados por grandes modelos. Para muchos equipos de ingeniería en España, esta capacidad de controlar el jitter y asegurar tiempos de respuesta estables es clave a la hora de industrializar servicios basados en agentes.

Vera toma el relevo de la familia Grace, que ya utilizaba núcleos Arm Neoverse, pero da un salto notable en densidad y capacidades. Frente a los 72 núcleos de Grace en su variante C1, Vera escala hasta esos 88 núcleos Olympus en un diseño monolítico centrado en minimizar latencias internas y maximizar el rendimiento por vatio en aplicaciones muy sensibles al movimiento de datos.

Memoria LPDDR5X de gran ancho de banda y coherencia CPU‑GPU reforzada

Uno de los puntos diferenciales de Vera está en el subsistema de memoria, un aspecto clave cuando se trabaja con miles de entornos agénticos y grandes contextos. Cada CPU Vera puede configurarse con hasta 1,5 TB de memoria LPDDR5X, alcanzando un ancho de banda de aproximadamente 1,2 TB/s. Esto supone duplicar el rendimiento de soluciones más generalistas, reduciendo al mismo tiempo el consumo energético.

Esta memoria de bajo consumo se combina con la segunda generación de la NVIDIA Scalable Coherency Fabric, que coordina el acceso a los datos entre núcleos y entre diferentes nodos dentro del rack. La idea es que las respuestas agénticas mantengan la agilidad incluso bajo carga extrema, algo habitual en entornos de aprendizaje por refuerzo o en plataformas con muchos usuarios concurrentes.

OpenAI lanza Codex como app independiente para macOS

Otro punto clave es el enlace NVLink‑C2C entre CPU y GPU, que en Vera ofrece hasta 1,8 TB/s de ancho de banda coherente. Esa cifra multiplica con creces lo que permite PCIe 6.0 y prácticamente dobla lo disponible en generaciones anteriores de NVIDIA, acercando la relación CPU‑GPU a un modelo mucho más estrecho y coherente para mover datos, descargar cachés de contexto y coordinar la inferencia.

En la práctica, esta arquitectura busca que la CPU deje de ser un mero “gestor de tareas” y pase a formar con la GPU un bloque de cómputo conjunto, pensado para factorías de IA donde la gestión del KV cache, la orquestación de herramientas y el flujo de datos son tan importantes como la propia capacidad de cálculo matricial.

Racks de CPU Vera: factorías de IA en un solo armario

Más allá del chip individual, NVIDIA ha presentado un rack completo de CPU Vera construido sobre la arquitectura modular MGX y refrigerado íntegramente por líquido. En su configuración de referencia, integra 256 CPU Vera, capaces de sostener más de 22.500 entornos de CPU simultáneos en un único rack.

Ese nivel de densidad está orientado a despliegues donde la IA agéntica requiere múltiples procesos auxiliares: herramientas de búsqueda y recuperación, validadores, sandboxes, bases de datos, colas de trabajo o servicios de coordinación entre agentes. Según los datos de NVIDIA, estos racks logran un rendimiento de un solo hilo un 50% superior al de las CPUs de rack tradicionales, con el doble de eficiencia energética, precisamente el tipo de mejora que preocupa a los responsables de centros de datos europeos sometidos a normas de eficiencia cada vez más exigentes.

Interconectados mediante Ethernet Spectrum‑X, estos racks de CPU mantienen los distintos entornos sincronizados en toda la factoría de IA. Junto con los racks de computación basados en GPU Rubin, proporcionan la base de CPU necesaria para IA agéntica a gran escala y para los ciclos de entrenamiento y validación típicos del aprendizaje por refuerzo.

NVIDIA ha confirmado que estos sistemas llegarán al mercado a través de grandes integradores y fabricantes de servidores. Entre los nombres que se han mencionado figuran Dell Technologies, HPE, Lenovo, Supermicro, Cisco o ASUS, lo que anticipa una disponibilidad amplia tanto en data centers de proveedores de servicios como en instalaciones on‑premise en Europa.

La plataforma Vera Rubin: CPU, GPU y red como un único sistema

Sobre la base de Vera, la compañía ha presentado la plataforma Vera Rubin, que busca tratar el centro de datos como una unidad de cómputo coherente y no como un conjunto de servidores aislados. Esta plataforma agrupa siete chips en producción: la CPU Vera, la GPU Rubin, el switch NVLink 6, la SuperNIC ConnectX‑9, la DPU BlueField‑4, el switch Ethernet Spectrum‑6 y la LPU Groq 3 para procesamiento de lenguaje.

El elemento más visible de este enfoque es el sistema Vera Rubin NVL72, un rack que integra 72 GPU Rubin y 36 CPU Vera conectadas mediante NVLink 6, junto a las SuperNICs y las DPUs BlueField‑4. NVIDIA asegura que esta configuración permite entrenar modelos de mezcla de expertos con solo una cuarta parte de las GPU necesarias frente a la plataforma Blackwell, manteniendo e incluso mejorando el rendimiento.

El impacto más llamativo aparece en la fase de inferencia. De acuerdo con las cifras publicadas, Vera Rubin NVL72 puede ofrecer hasta 10 veces más rendimiento por vatio y reducir el coste por token hasta una décima parte respecto a la generación anterior, un dato especialmente relevante para proveedores de servicios de IA que pagan la factura eléctrica en euros y necesitan controlar al máximo sus márgenes.

Para escalar más allá de un único rack, Vera Rubin se apoya en redes NVIDIA Quantum‑X800 InfiniBand y Spectrum‑X Ethernet, buscando mantener una utilización elevada de las GPU en clústeres masivos y, al mismo tiempo, recortar los tiempos de entrenamiento y el coste total de propiedad del centro de datos.

Indra y Telefónica preparan una gran alianza en ciberseguridad e IA para Defensa

Groq 3 LPX y la LPU como acelerador del lenguaje

Dentro de esta estrategia agéntica, la LPU Groq 3 (Language Processing Unit) ocupa un lugar propio. NVIDIA ha presentado un rack Groq 3 LPX con 256 procesadores LPU, equipados con 128 GB de SRAM integrada y un ancho de banda de aproximadamente 640 TB/s, pensado para modelos de billones de parámetros y contextos de millones de tokens.

Desplegado junto a Vera Rubin NVL72, este rack permite que las GPU Rubin y las LPUs trabajen de forma conjunta, calculando capa a capa cada token de salida. Según las estimaciones facilitadas, la combinación de LPX y Vera Rubin puede alcanzar hasta 35 veces más rendimiento de inferencia por megavatio, lo que se traduce en más tokens por vatio y más sesiones de alto valor por la misma potencia contratada en el CPD.

El rack LPX está totalmente refrigerado por líquido y se construye también sobre la infraestructura MGX, de modo que encaja en la misma filosofía modular que el resto de la plataforma. Esta línea de productos está pensada para disponibilidad en la segunda mitad de 2026, un horizonte temporal que encaja con los planes de actualización de muchos centros de datos europeos.

BlueField‑4 STX: almacenamiento nativo de IA para el contexto agéntico

Otro de los componentes clave del ecosistema es el rack de almacenamiento NVIDIA BlueField‑4 STX, descrito como una infraestructura de almacenamiento nativa de IA. Su función es extender de forma transparente la memoria de las GPU a nivel de POD, algo especialmente importante en aplicaciones donde los agentes necesitan memoria persistente, contexto de múltiples turnos y acceso rápido a datos históricos.

Este sistema se apoya en la DPU BlueField‑4, que combina la CPU NVIDIA Vera con la SuperNIC ConnectX‑9. Sobre esa base, STX ofrece una capa compartida de alto ancho de banda optimizada para almacenar y recuperar la enorme cantidad de datos de caché clave‑valor (KV cache) que generan los grandes modelos de lenguaje y los flujos de IA agéntica.

Para gestionar de forma eficiente ese KV cache, NVIDIA introduce DOCA Memos, un nuevo framework dentro del ecosistema DOCA. Este software permite un procesamiento dedicado de la caché KV, lo que, según la compañía, multiplica por cinco el rendimiento de la inferencia frente a arquitecturas de almacenamiento generalistas y mejora sensiblemente la eficiencia energética.

El resultado práctico es la creación de un contexto a nivel de POD que posibilita interacciones multiturno más rápidas con agentes de IA, servicios más escalables y una utilización más alta de la infraestructura existente. Para empresas europeas con restricciones de espacio y potencia en sus CPD, sacar más partido del hardware ya instalado sin disparar el consumo se ha convertido en una prioridad clara.

Red Spectrum‑6 SPX y tráfico este‑oeste optimizado

La pieza de red que completa la plataforma es el rack Ethernet NVIDIA Spectrum‑6 SPX, diseñado para acelerar el tráfico este‑oeste dentro de las factorías de IA. Este sistema puede configurarse con switches Spectrum‑X Ethernet o con tecnologías Quantum‑X800 InfiniBand, asegurando conectividad de rack a rack de baja latencia y alto rendimiento.

Una novedad destacada es el uso de fotónica Ethernet con óptica coempaquetada, que según NVIDIA logra hasta cinco veces más eficiencia energética en el componente óptico y multiplica por diez la resiliencia frente a los transceptores enchufables tradicionales. Esto busca garantizar que el sistema mantenga su disponibilidad, incluso bajo cargas continuas y de alta intensidad, habituales en entornos de entrenamiento y despliegue de IA agéntica en producción.

De este modo, la red deja de ser un elemento pasivo para convertirse en otra capa más del diseño codiseñado de la factoría de IA, alineada con los objetivos de rendimiento por vatio y de máxima utilización de los recursos de cómputo.

Australia lleva a Microsoft a los tribunales por una oferta de IA engañosa

Gestión de energía y sostenibilidad con la plataforma DSX

El crecimiento exponencial de la IA ha disparado la preocupación por el consumo energético, especialmente en la Unión Europea, donde la regulación sobre eficiencia y emisiones se endurece año tras año. Para responder a este reto, NVIDIA ha presentado la plataforma DSX para Vera Rubin, desarrollada en colaboración con más de 200 socios de infraestructura de centros de datos.

Dentro de esta plataforma, DSX Max‑Q permite el aprovisionamiento dinámico de energía en toda la fábrica de IA, lo que se traduce en la posibilidad de desplegar hasta un 30% más de infraestructura de IA dentro de un centro de datos con potencia fija. Este enfoque resulta especialmente interesante para operadores europeos que ya se encuentran cerca de sus límites de capacidad eléctrica.

Por su parte, DSX Flex está pensado para convertir las factorías de IA en activos flexibles para la red eléctrica, capaces de aprovechar hasta 100 gigavatios de energía varada en la red. La idea es que la infraestructura de IA pueda modular su consumo para adaptarse a la disponibilidad de energía, alineándose mejor con las políticas de integración de renovables y gestión de picos de demanda.

Además, NVIDIA ha dado a conocer el diseño de referencia de la fábrica de IA Vera Rubin DSX, un plano de infraestructura codiseñada que integra computación, redes, almacenamiento, alimentación y refrigeración. El objetivo es maximizar los tokens por vatio y mejorar la resiliencia del sistema, permitiendo que los clústeres escalen de forma fiable bajo cargas intensivas y continuas.

Ecosistema, disponibilidad y foco en Europa

La apuesta de NVIDIA por Vera y la IA agéntica llega acompañada de un amplio ecosistema de socios. La compañía ha anunciado acuerdos con los principales proveedores de nube pública, entre ellos Amazon Web Services, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure, así como con partners de NVIDIA Cloud como CoreWeave, Crusoe, Lambda, Nebius, Nscale o Together AI, y ha asegurado un suministro de chips a Meta.

En paralelo, se espera que fabricantes globales como Cisco, Dell Technologies, HPE, Lenovo, Supermicro, Foxconn, GIGABYTE, QCT o Wiwynn ofrezcan una amplia gama de servidores y sistemas basados en Vera y en la plataforma Vera Rubin. Para el mercado europeo, esto significa que será posible acceder tanto a modelos de consumo por uso en la nube como a despliegues on‑premise en centros de datos propios o en instalaciones de colocation.

Laboratorios de IA y desarrolladores de modelos de frontera como Anthropic, Meta, Mistral AI u OpenAI también figuran entre los interesados en utilizar Vera Rubin para entrenar modelos más grandes y servir sistemas multimodales de contexto largo con menor latencia y costes. Este tipo de proyectos suele marcar la pauta que después siguen bancos, aseguradoras, administraciones públicas y grandes empresas industriales en la Unión Europea.

Según el calendario facilitado por la compañía, los productos basados en Vera y Vera Rubin estarán disponibles a partir de la segunda mitad de 2026. Este horizonte temporal deja cierto margen a las organizaciones europeas para revisar sus planes de inversión y decidir hasta qué punto quieren apostar por un modelo de factoría de IA codiseñada frente a arquitecturas más tradicionales basadas en servidores discretos.

En conjunto, la estrategia de NVIDIA con Vera sitúa la CPU en el centro de la IA agéntica, no como un simple complemento de la GPU, sino como la pieza que orquesta memoria, contexto, herramientas y validación de resultados a gran escala. Para los responsables tecnológicos en España y Europa, el reto no será tanto la potencia bruta del hardware como la capacidad de adaptar sus arquitecturas de datos, sus procesos y su gobernanza para aprovechar una infraestructura pensada para agentes autónomos que ya no solo responden, sino que planifican, deciden y ejecutan dentro de los límites que marque cada organización.

Nvidia asegura el suministro de millones de chips de IA a Meta en un macroacuerdo estratégico