En un giro emocionante de los acontecimientos en el mundo de la inteligencia artificial, Meta ha desvelado la Llama API en el primer LlamaCon, prometiendo revolucionar la forma en que los desarrolladores interactúan con sus modelos de IA. Este nuevo servicio, que se encuentra en una fase de prueba gratuita limitada, permite a los desarrolladores acceder a diferentes modelos de la familia Llama, incluyendo los recién lanzados Llama 4 Scout y Llama 4 Maverick.
La Llama API se destaca por su facilidad de uso, ofreciendo creación de claves API con un solo clic y SDKs ligeros en TypeScript y Python. Lo mejor de todo es su compatibilidad con el SDK de OpenAI, lo que facilita a los desarrolladores portar sus aplicaciones basadas en OpenAI hacia esta nueva plataforma.
Velocidades de inferencia sin precedentes
Pero eso no es todo, ya que Meta ha asociado fuerzas con Cerebras y Groq, prometiendo velocidades de inferencia récord. Cerebras afirma que su modelo Llama 4 Cerebras puede generar tokens hasta 18 veces más rápido que las soluciones tradicionales basadas en GPU de NVIDIA y otras. De acuerdo con el sitio de benchmarks Artificial Analysis, el modelo Cerebras superó los 2,600 tokens/s para Llama 4 Scout, en comparación con solo 130 tokens/s de ChatGPT y 25 tokens/s de DeepSeek.
Andrew Feldman, CEO y cofundador de Cerebras, expresó su entusiasmo: “Cerebras se enorgullece de hacer de la Llama API la API de inferencia más rápida del mundo. Los desarrolladores que construyen aplicaciones en tiempo real necesitan velocidad. Con Cerebras en la Llama API, pueden crear sistemas de IA que son fundamentalmente inalcanzables para las nubes de inferencia líderes basadas en GPU”.
Los desarrolladores interesados pueden acceder a esta increíble velocidad de inferencia al seleccionar Cerebras desde las opciones del modelo dentro de la Llama API. Además, Llama 4 Scout también está disponible a través de Groq, aunque actualmente opera a más de 460 tokens/s, lo que es aproximadamente 6 veces más lento que la solución de Cerebras, pero aún 4 veces más rápido que otras soluciones basadas en GPU.