OpenAI rompe récords con su IA Deep Research, superando "el examen más desafiante del mundo"

OpenAI rompe récords con su IA Deep Research, superando “el examen más desafiante del mundo”

Teknalix febrero 5, 2025 No hay comentarios

Los agentes de inteligencia artificial están ganando bastante importancia en estos últimos días, y no obstante Deep Research de OpenAI ha dejado impresionados a muchos amantes de la tecnología, mientras que otros se han llevado las manos a la cabeza.

Una forma de medir estos modelos de inteligencia artificial es a través de distintos textos o exámenes, una serie de benchmarks que miden su capacidad de razonamiento, y parece que ahora OpenAI lleva la delantera.

El llamado “último examen de la humanidad” o “el examen más difícil del mundo”, se lanzó hace menos de dos semanas, y sirve para medir la capacidad de razonamiento de todos estos modelos basados en IA.

Este examen contiene algunos de los problemas y preguntas de razonamientos más difíciles conocidos, incluso muy difíciles de responder por un ser humano.

Hace unos días, DeepSeek R1 se encontraba en la primera posición de este particular benchmark con una puntuación de precisión del 9,4 % evaluándose solo en texto.

Pero hace escasas horas, o3-mini de OpenAI obtuvo un 10,5 % de precisión en la configuración básica y un 13 % de precisión en la configuración alta.

Pero lo más impresionante ha sido el alcanzado por el nuevo agente de inteligencia artificial de OpenAI llamado Deep Research que ha obtenido 26,6 % y eso que lleva apenas unos días de disponibilidad.

En todo caso, cabe aclarar que Deep Research cuenta con capacidad de búsqueda que no tienen otros modelos similares, por lo que parte con cierta ventaja.

Sin embargo, resulta sorprendente, que algunos de los test que se han lanzado en estas últimas semanas o meses para medir el razonamiento de los modelos de inteligencia artificial, cada vez están siendo más superados.

Quizás todavía queda bastante tiempo para que un modelo de IA pueda ser capaz de alcanzar casi la perfección en un examen de este tipo, pero los avances son más que evidentes.

Conoce cómo trabajamos en ComputerHoy.

Etiquetas: Inteligencia artificial