Amazon Web Services ha revelado las operaciones internas de su laboratorio de desarrollo de chips Trainium en Austin, Texas, justo después de anunciar un acuerdo de $50,000 millones con OpenAI. El laboratorio de chips de AWS, dirigido por Kristopher King y Mark Carroll, es el centro neurálgico donde la compañía desarrolla sus procesadores de inteligencia artificial diseñados para competir con el dominio de Nvidia en el mercado. Según la empresa, el chip Trainium está siendo observado de cerca por expertos de la industria debido a sus implicaciones para reducir costos en inferencia de IA.
El acuerdo con OpenAI incluye el suministro de 2 gigavatios de capacidad computacional Trainium, una inversión masiva considerando que Anthropic y el servicio Bedrock de Amazon ya consumen estos chips más rápido de lo que pueden producirse. Actualmente hay 1.4 millones de chips Trainium desplegados en todas las generaciones, con más de 1 millón de chips Trainium2 utilizados por Claude de Anthropic.
El desarrollo del chip Trainium en AWS
El laboratorio de chips de AWS en Austin representa más de una década de experiencia en diseño de semiconductores, desde que Amazon adquirió la empresa israelí Annapurna Labs en enero de 2015 por aproximadamente $350 millones. El equipo ha mantenido sus raíces israelíes y continúa operando bajo el nombre Annapurna, cuyo logotipo es visible en todas las oficinas del complejo ubicado en el distrito The Domain de Austin.
Según King, la base de clientes de AWS se expande tan rápido como pueden aumentar la capacidad de producción. “Bedrock podría ser tan grande como EC2 algún día”, afirmó, refiriéndose al servicio de computación en la nube insignia de AWS. El chip Trainium, originalmente diseñado para entrenar modelos de IA más rápido y económicamente, ahora está optimizado también para inferencia, que representa actualmente el mayor cuello de botella de rendimiento en la industria.
Competencia con Nvidia y reducción de costos
Amazon afirma que sus nuevos chips ejecutándose en los servidores especializados Trn3 UltraServer cuestan hasta 50% menos que usar servidores en la nube tradicionales para rendimiento comparable. El chip Trainium3, lanzado en diciembre, utiliza tecnología de 3 nanómetros fabricada por TSMC y representa un avance significativo en arquitectura de procesadores de inteligencia artificial.
Además del chip, el equipo de AWS ha desarrollado nuevos switches Neuron que permiten que cada chip Trainium3 se comunique con todos los demás en una configuración de malla, reduciendo la latencia. “Eso es por qué Trainium3 está rompiendo todo tipo de récords”, particularmente en precio por potencia, explicó Carroll durante el recorrido por las instalaciones.
Compatibilidad con PyTorch
Un aspecto crucial para reducir los costos de cambio es que Trainium ahora soporta PyTorch, un framework de código abierto popular para construir modelos de IA. Carroll indicó que la transición requiere “básicamente un cambio de una línea, luego recompilar y ejecutar en Trainium”. Esta compatibilidad busca erosionar el dominio casi monopolístico de Nvidia en el mercado de chips para inteligencia artificial.
Adicionalmente, AWS anunció este mes una asociación con Cerebras Systems, integrando el chip de inferencia de esa compañía en servidores que ejecutan Trainium. Amazon promete que esta combinación ofrecerá rendimiento de IA superpotente con baja latencia para aplicaciones empresariales.
El proceso de “bring-up” en el laboratorio
El laboratorio de Austin es donde ocurre el “bring-up”, el momento crítico cuando el chip se activa por primera vez después de 18 meses de desarrollo. King describió este proceso como “una gran fiesta nocturna” donde el equipo permanece en las instalaciones para verificar que el chip funciona según lo diseñado. El equipo incluso filmó parte del bring-up de Trainium3 y lo publicó en YouTube.
Durante el bring-up de Trainium3, surgieron problemas con las dimensiones de cómo el chip se conectaba al disipador de calor por aire. Sin inmutarse, el equipo “inmediatamente consiguió una amoladora y comenzó a moler el metal”, relató King. Para no interrumpir el ambiente de fiesta del bring-up con el ruido, realizaron el trabajo de amolado en una sala de conferencias.
Infraestructura completa diseñada internamente
Más allá de los chips, Amazon diseña el servidor completo que los aloja, incluyendo componentes de red, la tecnología de virtualización “Nitro”, sistemas de refrigeración líquida de última generación y los “sleds” (bandejas) que contienen todo el equipo. Los sleds son las estructuras que alojan los chips Trainium, los chips CPU Graviton y las placas de soporte, componentes fundamentales del éxito de Claude de Anthropic.
El laboratorio cuenta con estaciones de soldadura especializadas donde ingenieros como Isaac Guevara realizan soldaduras microscópicas de componentes de circuitos integrados. Este trabajo es tan complejo que el propio Carroll admitió abiertamente que no podría hacerlo, para las risas de Guevara y otros ingenieros presentes.
Implementación en Project Rainier y clientes
El mayor bloque de chips Trainium2 está desplegado en Project Rainier, uno de los clusters de computación de IA más grandes del mundo, que se activó a finales de 2025 con 500,000 chips y es utilizado por Anthropic. Sin embargo, durante el recorrido, los ingenieros mostraron discreción sobre el acuerdo con OpenAI, posiblemente debido a la incertidumbre legal que podría rodear el convenio.
Según reportó Financial Times, Microsoft podría considerar que el acuerdo de OpenAI con Amazon viola su propio convenio con OpenAI, específicamente en cuanto al acceso de Microsoft a todos los modelos y tecnología de OpenAI. A pesar de esta situación, había un monitor en la oficina principal mostrando una cita sobre cómo OpenAI utilizará Trainium, sugiriendo orgullo discreto por parte del equipo.
El CEO de Amazon, Andy Jassy, mantiene supervisión cercana del laboratorio y en diciembre declaró que Trainium ya era un negocio de miles de millones de dólares para AWS. También destacó el chip al anunciar el acuerdo con OpenAI, llamándolo una de las tecnologías de AWS que más le entusiasma.
Además del laboratorio, el equipo opera su propio centro de datos privado para pruebas de calidad, ubicado en una instalación de colocación separada con protocolos de seguridad estrictos. El centro utiliza sistemas de refrigeración líquida en circuito cerrado, lo que según los ingenieros ayuda a reducir el impacto ambiental de las operaciones. Los servidores Trn3 UltraServer actuales integran múltiples sleds con chips Graviton CPU, Trainium3 refrigerado por líquido y Amazon Nitro, con switches Neuron en el medio.
El equipo trabaja bajo presión considerable, con ingenieros laborando 24/7 durante tres o cuatro semanas alrededor de cada evento de bring-up para resolver problemas y permitir la producción masiva. “Es muy importante que lleguemos lo más rápido posible a demostrar que realmente va a funcionar”, dijo Carroll, agregando que “hasta ahora, lo hemos estado haciendo muy bien”. La industria observará si Amazon puede cumplir su compromiso de 2 gigavatios con OpenAI mientras continúa expandiendo el despliegue de Trainium entre sus clientes existentes, y si el acuerdo resistirá cualquier desafío legal potencial de Microsoft.

