Inteligencia artificial

xAI se enfrenta a críticas por la presentación de los puntos de referencia de Grok 3

Créditos TecnoAp21

La empresa de Elon Musk enfrenta críticas por la presentación de resultados de su modelo de IA, mientras expertos cuestionan la transparencia de las métricas utilizadas en la industria.

La semana oasada, un empleado de OpenAI acusó a xAI, la empresa de inteligencia artificial de Elon Musk, de publicar datos engañosos sobre el desempeño de su último modelo, Grok 3. En respuesta, el cofundador de xAI, Igor Babushkin, defendió la validez de los resultados presentados, aunque la verdad parece encontrarse en un punto intermedio.

Según un informe publicado en el blog de xAI, Grok 3 superó al modelo más avanzado de OpenAI, o3-mini-high, en el examen matemático AIME 2025. Sin embargo, los críticos argumentan que xAI omitió un factor clave en su comparación: la métrica «cons@64», que permite a un modelo realizar hasta 64 intentos por problema y seleccionar la respuesta más frecuente como su resultado final. Esta omisión puede haber hecho que Grok 3 pareciera más competitivo de lo que realmente es.

¿Qué significan realmente los resultados?.

Los datos de Grok 3 en AIME 2025 bajo la métrica «@1» (la primera respuesta generada por el modelo) son en realidad inferiores a los de o3-mini-high de OpenAI y ligeramente por debajo del rendimiento del modelo o1 de OpenAI configurado en «media computación». A pesar de esto, xAI ha promocionado a Grok 3 como «la IA más inteligente del mundo».

Babushkin argumentó que OpenAI también ha utilizado gráficos engañosos en el pasado, aunque en su caso para comparar sus propios modelos. Para clarificar la situación, un investigador independiente elaboró un gráfico más completo que muestra la verdadera comparación entre los modelos de IA bajo la métrica cons@64.

Transparencia en los puntos de referencia de IA.

El debate pone en evidencia un problema más amplio dentro de la industria de la IA: la falta de claridad en la presentación de los puntos de referencia. Según el investigador Nathan Lambert, una de las métricas más importantes sigue siendo desconocida: el costo computacional y financiero que cada modelo requiere para lograr su mejor puntuación.

A medida que la competencia en el sector de la inteligencia artificial se intensifica, la comunidad científica y tecnológica demanda una mayor transparencia en la evaluación del rendimiento de los modelos. Este incidente con Grok 3 refuerza la necesidad de estándares más rigurosos para garantizar comparaciones justas y precisas entre los avances de diferentes empresas.


Descubre más desde TecnoAp21

Suscríbete y recibe las últimas entradas en tu correo electrónico.

1 respuesta »

Deja un comentario