Joel Pacheco Gonçalves
El despliegue de infraestructura para IA ha dominado cada conversación este año. Pero hay un cambio más silencioso ya en marcha — y está ocurriendo dentro de edificios que ya existen.
En el primer artículo de esta serie, exploramos cómo la IA estaba reescribiendo el ciclo de planeación de infraestructura: tiempos de entrega de energía más largos, nuevos criterios de selección de sitios, un ritmo distinto de inversión. En el segundo, el argumento fue que la inferencia es tanto un problema de red como de cómputo. La proximidad a los usuarios importa. Los vecinos importan.
Este artículo va un paso más allá. Porque la conversación que tuve una y otra vez en eventos de la industria este año — de Honolulu a Bellevue — me llevó a una conclusión que no anticipé: el cuello de botella para el AI inferencing no es el modelo ni el hardware. Es si los lugares donde necesitamos ejecutarlo están realmente listos.
Cuando los agentes empiezan a hacer las preguntas
La mayoría de las personas todavía imagina el AI inferencing como una persona escribiendo un prompt y esperando unos segundos la respuesta. Ese marco tenía sentido hace un año. Ya no es representativo de lo que viene.
Cualquiera que trabaje hoy con modelos de razonamiento extendido sabe que la espera ya se alargó. Opus ejecuta tareas de razonamiento complejo en minutos. Fable puede tardar más. Los usuarios se han adaptado — la respuesta es mejor, la espera es parte del trato. Eso funciona bien para una persona haciendo una sola solicitud.
Los agentes no hacen una sola solicitud. Las encadenan. Una inferencia dispara otra, que dispara una acción, que dispara otra inferencia. Un sistema multi-agente coordinado genera cientos de llamadas donde un solo usuario generaba una. El volumen se multiplica. Y de manera crítica, el patrón de tráfico cambia. Las redes fueron diseñadas para la asimetría: mucho dato fluyendo hacia los usuarios, muy poco regresando. Agentes subiendo contexto, jalando resultados, coordinándose entre sí — eso cambia el balance. El keynote de NANOG97 fue directo en este punto: el número de solicitudes de inferencia crecerá de forma exponencial, y la mayor parte de ese crecimiento no vendrá de humanos. Vendrá de agentes.
La infraestructura centralizada puede absorber mucho. Pero el tráfico impulsado por agentes a escala es una carga distinta a todo para lo que la arquitectura actual fue dimensionada. Eso es lo que convierte al edge inference de algo deseable a un requerimiento estructural.
La arquitectura ya existe. La infraestructura, no.
El modelo de dos niveles para inferencia no es hipotético. Está en producción. Despliegues distribuidos han demostrado reducciones de costo de entre 76 y 86 por ciento para cargas de trabajo de alto volumen y contexto corto, comparado con enrutar todo a través de la nube centralizada. Los modelos que corren en estos nodos de edge son compactos y diseñados para ese propósito — siete a catorce mil millones de parámetros, cuantizados para ejecutarse eficientemente en hardware de enfriamiento por aire. Manejan la mayoría de las consultas. Las solicitudes más complejas, de contexto más largo, regresan al cómputo centralizado. Funciona exactamente como la entrega de contenido: el edge maneja lo que puede, el origen maneja lo que no puede.
Pero aquí es donde la analogía con CDN se rompe. Cuando los CDN escalaron a principios de los años 2000, la capa física ya estaba lista. Los data centers de colocación ya estaban construidos, ya estaban conectados, ya tenían energía. Los operadores instalaban servidores y la capa edge crecía rápido.
La capa de edge inference no tiene esa ventaja de arranque. En un rack de colocación estándar con un límite de 15 kilowatts caben aproximadamente tres nodos de inferencia de ocho GPUs — unas doce unidades de rack en un gabinete de 42 unidades. Poca utilización de espacio por cualquier métrica. Peor aún, los clusters de inferencia no pueden distribuirse en diferentes filas o suites separadas. Los nodos operan como una unidad de cómputo, conectados por una red de alta velocidad este-oeste. Romper esa adyacencia introduce problemas de coordinación que la arquitectura fue diseñada para eliminar. La restricción no es solo la energía. Es una combinación de densidad de energía, ubicación física y el fabric de interconexión que los une.
Qué viene después
Construir nuevas instalaciones edge diseñadas específicamente para esto suena como la respuesta. No lo es — al menos no en los tiempos que el ritmo de adopción de la IA requiere. Los tiempos de entrega de transformadores en EE. UU. se han extendido hasta cuatro años. Aproximadamente siete gigawatts de capacidad de centros de datos planeada fue retrasada o cancelada solo en 2026. La cadena de suministro para los equipos de alta densidad no está lista para moverse tan rápido.
Entonces la industria encuentra un camino diferente, y ya es visible. Los modelos siguen haciéndose más ligeros — la cuantización permite que modelos más grandes corran en hardware más modesto con cada generación. Los data centers existentes reciben mejoras de energía puntuales en ubicaciones de alto valor, en lugar de construir desde cero. La arquitectura se vuelve más inteligente en el enrutamiento: más niveles, mejor orquestación entre ellos, menos dependencia de alguna capa particular para hacerlo todo.
Los centros de datos que están en la intersección de esos niveles — donde los nodos de edge inference necesitan intercambiar tráfico con las redes que lo llevan a los usuarios, y donde las consultas complejas necesitan un camino rápido de regreso al cómputo centralizado — se convierten en los puntos estratégicos de la arquitectura. No por lo que alojan, sino por cómo se conectan.
La entrega de contenido no hizo obsoleto el servidor de origen. Hizo estratégica la ubicación. Lo mismo está pasando con la infraestructura de IA. La capa de edge inference se está construyendo. La cadena de suministro supone un freno. Y las ubicaciones que ya tienen la densidad de fibra, las relaciones con las redes y la presencia de carriers se están convirtiendo en el tejido conectivo de un stack que todavía se está ensamblando.