Una prueba tan severa que ningún sistema de inteligencia artificial puede superarla… en absoluto.

Si está buscando una nueva razón para preocuparse por la inteligencia artificial, pruebe esto: algunos de los humanos más inteligentes del planeta están luchando por crear pruebas que los sistemas de IA no puedan pasar. Durante años, los sistemas de IA se han medido por cómo. mucho que aportan. Simula una variedad de pruebas de referencia. Muchas de las pruebas incluyen problemas desafiantes de nivel SAT en áreas como matemáticas, ciencias y lógica, comparando las puntuaciones de los modelos a lo largo del tiempo. Esta es una medida aproximada del progreso de la IA, pero los sistemas de IA finalmente obtuvieron un rendimiento demasiado bueno en esas pruebas. Hay pruebas nuevas y más difíciles, por lo que a menudo tienen diferentes tipos de preguntas. Como pueden encontrar los estudiantes de posgrado en esos exámenes, las pruebas no funcionan tan bien. Los nuevos modelos de empresas como OpenAI, Google y Anthropic han obtenido puntuaciones altas en muchos desafíos de doctorado. Esto limita la utilidad de esas pruebas. Y esto lleva a una pregunta sorprendente: ¿Son los sistemas de inteligencia artificial demasiado inteligentes para que podamos medirlos esta semana? Los investigadores del Centro para la Seguridad y los Niveles de la IA están revelando una posible respuesta a esa pregunta: una nueva evaluación llamada La última prueba de la humanidad es obra de Dan Hendrycks, un conocido investigador de seguridad de IA y autor del Centro de seguridad de IA (anteriormente el nombre de la prueba). (“Mankind’s Last Stand” fue abandonado porque era demasiado dramático). Hendricks trabaja con Scale AI, una empresa de inteligencia artificial donde se desempeña como consultor. Para elaborar la prueba, que consta de aproximadamente 3.000 preguntas de opción múltiple y de respuesta corta, diseñadas para probar las capacidades de los sistemas de IA en áreas que van desde la filosofía analítica hasta la ingeniería espacial, las preguntas son enviadas por expertos en estos campos. incluidos profesores universitarios y matemáticos galardonados a quienes se les pidió que hicieran preguntas muy difíciles cuyas respuestas conocían. Aquí, intente responder las preguntas sobre anatomía de los colibríes de la prueba: Los colibríes en Apodiformes tienen huesos emparejados, especialmente en ambos lados. que es un sesamoideo incrustado en la parte caudal de la aponeurosis extendida y cruzada de la inserción de la depresión caudae del m. ¿Cuántos tendones pares soporta este hueso sesamoideo? Responde en números ¿O si la física fuera más rápida que eso? Pruebe esto: los bloques se colocan sobre un riel horizontal. que puede moverse sin fricción Está unido a un extremo de una varilla sólida sin masa de longitud R y tiene masa unida al otro extremo. Ambos objetos tienen peso W. El sistema inicialmente está estacionario. con la masa exactamente encima del bloque La masa se empuja sólo ligeramente paralela al carril. Supongamos que el sistema está diseñado para que el eje pueda girar 360 grados completos sin interrupción. Cuando el eje es horizontal Experimentará tensión T1 cuando la barra vuelva a estar vertical. Con una masa directamente debajo del bloque, experimenta una tensión T2 (ambas cantidades pueden ser negativas). Esto indica que el núcleo está comprimido). ¿Cuál es el valor (T1-T2)/W (escribiré la respuesta aquí? (Pero eso arruinaría la prueba para cualquier sistema de inteligencia artificial entrenado en esta columna. Además, soy demasiado estúpido para verificar mis respuestas yo mismo). Las preguntas del examen Last of Mankind pasan por un proceso de filtrado de dos pasos. Primero, está la delegación. envió preguntas a los principales modelos de IA para su edición Si el modelo no puede responder la pregunta. (o si en el caso de preguntas de opción múltiple El modelo funciona peor que las conjeturas aleatorias.) Se dan preguntas a Grupo de revisores humanos. que filtra y comprueba las respuestas correctas Los expertos que escriben las preguntas mejor calificadas reciben un pago de entre 500 y 5000 dólares por pregunta. También recibirá crédito por su participación en el examen. Kevin Zhou, investigador postdoctoral en física teórica de partículas de la Universidad de California, Berkeley, envió una serie de preguntas para la prueba. Se seleccionaron tres de sus preguntas. Todo lo que me dijo «Está dentro de los límites superiores de lo que podríamos ver en los exámenes de nivel de posgrado». Hendrycks, quien ayudó a crear una prueba de IA ampliamente utilizada llamada Massive Multitask Language Undering, o MMLU, dijo que se inspiró para crear pruebas de IA más difíciles en una conversación con Elon Musk (el Sr. Hendricks también es consultor de seguridad para la empresa de IA del Sr. Musk, xAI). Dijo que Musk expresó su preocupación por las pruebas existentes para el modelo de IA, que pensaba que era demasiado simple. pregunta y dijo: ‘Esto es pregrado’. Quiero algo que puedan hacer expertos de talla mundial’”, afirmó Hendrycks. Hay otras pruebas. que intentan medir capacidades avanzadas de IA en ciertos dominios, como FrontierMath, una prueba desarrollada por Epoch AI, y ARC-AGI, una prueba desarrollada por el investigador de IA François Chollet. El examen But the Last of Humanity tiene como objetivo determinar si los sistemas de IA funcionan. Bueno, ¿respondes preguntas complejas en una variedad de materias académicas? Al darnos lo que podría considerarse una puntuación de inteligencia general, «estamos tratando de evaluar hasta qué punto la IA puede automatizar muchas tareas intelectuales difíciles», dijo Hendricks. Una vez compilada la lista de preguntas Los investigadores le dieron a la humanidad una prueba final de seis modelos líderes de IA, incluido el Gemini 1.5 Pro de Google y el Claude 3.5 Sonnet de Anthropic, y todos fallaron estrepitosamente. El sistema o1 de OpenAI salió victorioso con una puntuación del 8,3 por ciento (The New York Times ha demandado a OpenAI). y su socio Microsoft, acusándolos de infracción de derechos de autor sobre contenido de noticias relacionado con sus sistemas de inteligencia artificial OpenAI y Microsoft lo ha negado. Demanda.)Sr. Hendricks dijo que espera que esos puntajes aumenten rápidamente y posiblemente superen el 50 por ciento para fin de año. En ese momento, dijo, los sistemas de IA podrían considerarse «pronosticadores globales» que pueden responder preguntas sobre una variedad de temas. Más preciso que los expertos humanos Y es posible que debamos buscar otras formas de medir el impacto de la IA, como analizar los datos económicos. o decidir si poder descubrir cosas nuevas en matemáticas y ciencias? “¿Te imaginas una versión mejor de esto en la que podamos hacer las preguntas que hacemos? Aún no se conoce la respuesta y podemos comprobar si el modelo puede ayudarnos a resolver el problema”, dijo Summer Yue, directora de investigación de Scale AI y organizadora del examen. Parte de lo que es tan confuso En cuanto a qué tan avanzada es la IA hoy en día, es irregular. Tenemos modelos de IA que pueden diagnosticar enfermedades de manera más eficiente que los médicos humanos. Ganó la medalla de plata en la Olimpiada Internacional de Matemáticas. y vencer a los mejores programadores humanos en competencias de codificación. Pero a veces este mismo modelo tiene dificultades con tareas básicas como la aritmética o escribir poesía métrica. Eso les ha ganado la reputación de ser sorprendentemente buenos en algunas cosas y completamente inútiles en otras. Y ha creado una impresión muy diferente de la rapidez con la que está evolucionando la IA. Depende de si estás viendo los mejores o peores resultados. Esta rugosidad también dificulta la medición de estos modelos. El año pasado escribí que necesitamos mejores evaluaciones de los sistemas de inteligencia artificial y todavía lo creo. Pero también creo que necesitamos formas más creativas de seguir el progreso de la IA que no dependan de pruebas estandarizadas. Porque la mayor parte de lo que hacen los humanos Y lo que tememos es que a la IA le vaya mejor que a nosotros. No se pudo anotar en el examen escrito. El Sr. Zhou, un investigador de física teórica de partículas que presentó preguntas en el examen final de Humanidad, me dijo que aunque los modelos de IA a menudo responden preguntas complejas de manera impresionante, Pero no ve estas preguntas como una amenaza para él y sus colegas. Porque su trabajo es más complicado. Escupe la respuesta correcta. «Existe una enorme brecha entre lo que significa el examen y lo que significa ser un físico e investigador en ejercicio», dijo. «Incluso la IA que puede responder a estas preguntas puede no estar equipada para ayudar con una investigación menos estructurada».