En la actualidad, la economía de inteligencia artificial (IA) se está consolidando a nivel global, es por esto que F5 y NVIDIA anunciaron una alianza estratégica. Que se basa en una solución integrada, la cual permite reducir hasta en un 61% el tiempo para generar un primer token.
Además de optimizar en 34 % la latencia de las solicitudes, eso en comparación con la oferta tradicional de plataformas para el balanceo de cargas. Esta propuesta libera ciertos recursos de procesamiento (CPU), así las unidades gráficas (GPU) se pueden enfocar en otras tareas.
Es decir, las organizaciones tienen la opción para dar prioridad a cargas de inferencia con alto rendimiento, sin necesidad de modificar los modelos existentes. A nivel estratégico, se trata de una expansión del convenio de colaboración entre las dos firmas de soluciones digitales.
Uno de los principales objetivos es acelerar y optimizar la infraestructura de inferencia de IA, ya que es un momento clave para la economía de inteligencia artificial. Donde las empresas buscan monetizar sus inversiones en este tipo de proyectos, para así generar un mayor valor.
Con la integración de F5 BIG-IP Next para Kubernetes, con las Unidades de Procesamiento de Datos (DPUs) NVIDIA BlueField-3. Los usuarios pueden construir una capa de infraestructura inteligente, la cual resulta innovadora ya que estará basada en la telemetría en tiempo real.
De esta manera, se mejora el rendimiento de los tokens que son las unidades básicas para la generación de contenido en inteligencia artificial. Además, se optimiza el uso de las GPUs y así se reduce la latencia en entornos de alta demanda, algo que se necesita en las empresas.
La industria debe impulsar la economía de inteligencia artificial
Mediante esta nueva solución, se busca incorporar capacidades avanzadas de enrutamiento consciente de la inferencia, usando estadísticas de NVIDIA. Así, la economía de inteligencia artificial maximiza la eficiencia, reduce los reprocesos y con eso se mejora la infraestructura.
En el contexto actual, donde las organizaciones y los proveedores de los GPU como servicio (GPUaaS) compiten por escalar soluciones rentables. Se dio forma a la nombrada economía de tokens, con métricas de rendimiento tales como el Tiempo Hasta el Primer Token (TTFT).
Con esto, es posible asignar cargas de trabajo en tiempo real al acelerador más adecuado y así la infraestructura de IA evoluciona hacia un modelo más eficiente. Por eso, el rendimiento económico por aceleración es clave y se administran los tokens, como métricas del negocio.
A manera de resumen, se debe tener en cuenta que la economía de inteligencia artificial se va consolidando como un motor de desarrollo a nivel nacional. En este sentido, una serie de pruebas realizadas por The Tolly Group mostraron estas mejoras a nivel de la infraestructura.
Donde se destacó una optimización, de hasta 40 % más en el rendimiento de tokens con una reducción de 61 % en TTFT. El resultado es una menor latencia total en 34 %, esto se logra con el traslado de funciones como redes, cifrado y balanceo de carga hacia las DPUs NVIDIA.
Finalmente, la solución también responde a la evolución hacia cargas de trabajo impulsadas por agentes inteligentes (Agentic AI). Las cuales demandan un mayor contexto, persistencia y control dinámico del tráfico, por eso la solución brinda soporte para entornos multi-tenant.