Basura artificial o comentarios humanos: un juego para distinguir las respuestas falsas de las reales

Basura artificial o comentarios humanos: un juego para distinguir las respuestas falsas de las reales
No es que sea una prueba de Turing, pero se le parece un poco: Slop or Not es un experimento planteado para separar el grano de la paja, las respuestas humanas del slop, ese estupendo nombre que se ha dado al «contenido basura generado por inteligencia artificial». Jugar es tan sencillo como leer las dos opciones y marcar la que te parezca slop basuriento. Aviso: lo que no es tan fácil como parece es acertar. Este experimento online es una idea de Vignesh, que se preguntaba si la gente realmente distingue el slop de los contenidos auténticos en los textos que habitualmente aparecen en internet, no en «condiciones de laboratorio». Para ello utilizó preguntas y comentarios extraídos de Reddit, Hacker News y reseñas de Yelp (restaurantes, peluquerías, reseñas de películas…) En total son unas 13. 000 pares de textos humanos+IA filtrados a partir de unos 126 millones de textos. Los textos humanos ofrecen comparados con seis versiones diferentes generadas por modelos de Anthropic y OpenAI en 3 niveles de dificultad, usando LLMs cada vez más avanzados, desde Haiku 4. 5 y GPT-4. 1 Nano hasta Sonnet 4. 6 y GPT-5. 4. En su formato juego se empieza en modo fácil y se va avanzando de nivel cuando se aciertan tres veces seguidas. La partida termina si se falla 3 veces. Además de medir la precisión, los tiempos de respuesta y las rachas, el sistema busca analizar qué modelos «engañan mejor» y si el contexto en el que están planteados (el foro o sitio web) modifica la dificultad. Yo me he esforzado y no he pasado del 80% de aciertos, que supongo que no está mal. Me pareció que un buen truco es buscar en los comentarios y reseñas un toque «personal» y anecdótico, pero no siempre hay algo apropiado. Y los argumentos y comentarios suelen ser bastante parecidos, además de que el estilo de escritura formal/informal adaptado a cada tema engaña bastante. El caso es que da bastante rabia ver cómo a veces te la cuelan miserablemente porque… son comentarios que parecen tan «humanos» como los de los humanos. Enséñale el juego a alguien que aborrezca los LLM y a ver qué opina. Relacionado:- ¿Cuál está generado por una inteligencia artificial? En imágenes
- El test de Turing inverso diseñado por una IA, que luego es respondido por humanos y por IAs y finalmente evaluado por la misma IA, con curioso resultado
- Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas
- Un Test de Turing mínimo de una sola palabra
- El Test de Turing

Comentarios

Tentu usa cookies para ofrecerte la mejor experiencia

Básicas

Analíticas de usuario y rendimiento