Grok 3 de xAI se posiciona como el nuevo competidor de OpenAI con capacidades sorprendentes

La inteligencia artificial de Elon Musk, Grok 3, ha sorprendido al mundo con su rendimiento y capacidades de razonamiento, superando a sus competidores en múltiples pruebas.

La carrera por la supremacía en inteligencia artificial está más emocionante que nunca. Mientras esperábamos a gigantes como Google y Anthropic, xAI de Elon Musk ha irrumpido en la escena con su modelo Grok 3. Este nuevo jugador ha demostrado ser un competidor formidable para OpenAI, logrando resultados impresionantes en las pruebas de rendimiento.

En un reciente análisis, se probaron los modelos de razonamiento y base de Grok 3 con una serie de preguntas complejas, y los resultados fueron sorprendentes. El modelo de razonamiento se enfrentó a la famosa pregunta sobre la palabra “Strawberry” y, tras un breve período de reflexión, identificó correctamente que hay tres letras ‘r’. Siguió con otra pregunta sobre “Lollapalooza”, donde también acertó al contar las letras ‘l’.

Razonamiento y Desempeño

La capacidad de razonamiento de Grok 3 se puso a prueba con una pregunta que ha desorientado a otros modelos.

El cirujano, que es el padre del niño, dice: "No puedo operar a este niño, ¡es mi hijo!" ¿Quién es el cirujano del niño?

Mientras que OpenAI y otros fallaron al identificar que el cirujano era el padre del niño, Grok 3 no solo acertó, sino que reflexionó: “Es posible que esto sea un acertijo mal redactado”. Este nivel de razonamiento crítico lo coloca en una liga propia junto a modelos como Gemini 2.0.

Pero no todo fue perfecto. Al pedirle que generara un programa de Python para simular una bola rebotando dentro de un hexágono, Grok 3 se quedó corto en su ejecución. Curiosamente, el modelo base logró generar un código funcional en su primer intento, lo que sugiere que el modelo de razonamiento podría haber sobreanalizado la tarea.

DeepSearch y Capacidades de Búsqueda

Además, xAI ha lanzado un nuevo agente de inteligencia artificial llamado DeepSearch, que utiliza el modelo Grok 3 para investigar y generar informes. En una prueba, el agente fue capaz de acceder a múltiples fuentes y generar un informe de 1300 palabras en minutos. Sin embargo, dejó fuera información relevante sobre el tema, lo que resalta algunas limitaciones en su capacidad de búsqueda. Aún debe mejorar esta función.

Neutralidad Política y Seguridad

A pesar de las preocupaciones iniciales sobre un posible sesgo político, mi experiencia con Grok 3 ha demostrado que mantiene una posición neutral. Incluso cuando se le empuja a tomar una postura, el modelo se limita a presentar los hechos y deja la interpretación al usuario. Además, ha mejorado significativamente en términos de seguridad, rechazando ayudar en tareas dañinas o engañosas.

DESCUBRE MÁS SOBRE EL TEMA

Investigación y Desarrollo