Autor: Beñat Descalzo Alcuaz (equipo Ada Byron)
(Nota: Esta L.A. es parte de una serie de artículos. Si no lo has hecho, accede al artículo general aquí)
Como bien resume el refranero de la lengua cervantina, "el diablo se esconde en los detalles". Con LLMs, esto es especialmente cierto. Los humanos, a partir de nuestra experiencia, trabajamos bajo varios supuestos tan evidentes (a nuestra percepción) que no quedan escritos en ningún lado. Los LLMs no cuentan con esa intuición interna. Por tanto, la mejor heurística defensiva aquí es sencilla: da por hecho que, para todo aquello que no hagas explícito, el modelo va a hacer la interpretación menos caritativa posible.
De hecho, voy más allá: asume que existen errores que ni siquiera puedes imaginar que existan a priori, y que se esconden con sutileza en el output. En nuestro caso, esto fue especialmente interesante de ver en el desarrollo del sitio web con el framework Astro. Por algún motivo, Codex asumió que, si se solicita el desarrollo de una web en Astro, este dato debería aparecer ni más ni menos que en el header:
Asumió, a su vez, que todos los detalles y documentos de referencia internos para el desarrollo merecían un apartado propio en el landing de la página:
Otra de sus suposiciones iniciales era hacer una web de una sola página larga. Cuando le solicitamos modificar este detalle, lo hizo correctamente, pero una vez más decidió dejarlo documentado en el landing:
A lo largo del ciclo de desarrollo de la página web, esta clase de error nos sucedió en muchos puntos más (al añadir los vídeos relativos al ODS 5, al cambiar la distribución de las preguntas tipo test en el cuestionario de autoevaluación, etc.). Enfrentamos, a su vez, varios problemas de inconsistencia relativos a la traducción de las páginas en los 3 idiomas.
Estos errores, al contrario que los del primer punto, no son de alucinación. Los cambios son estrictamente correctos, y acordes a lo solicitado al agente. ¿El problema? Contar, como usuarios humanos, con un supuesto natural e implícito como "los detalles internos de implementación no deberían ser parte del producto final que el cliente quiere mostrar al público".
Este ejemplo es algo evidente, y salta a la vista en cuanto abres la página web, pero esto no debería servir sino para reforzar la idea central: si el modelo no es de fiar en puntos tan obvios, ¿cómo confiar ciegamente en su criterio para hechos mucho más implícitos?
Por ello, la lección es simple: lee, relee, y lee una vez más todo aquello que salga de la máquina. Además de ser muy cuidadoso con el enfoque y ámbito de tus solicitudes a los agentes, revisa atentamente toda salida intermedia y final.
No comments:
Post a Comment