AUTORA: Alicia Piedrafita Sanromán
Cada vez hay más usuarios de inteligencia artificial en su día a día. La usamos, por ejemplo, para resumir apuntes, generar contenidos, reescribir texto o entender conceptos difíciles. Probablemente, no se nos ocurren otros usos como verificar el cumplimiento de instrucciones en los documentos administrativos que rellenamos. Hay bastantes ejemplos de esto, como solicitudes de beca, declaración de la renta o renovación del DNI. ¿Tiene esto sentido? Bueno, ¿por qué no? Además, si alguna IA hace esta tarea especialmente bien, la podríamos utilizar para revisar el cumplimiento de instrucciones en nuestros documentos de dirección de proyectos o de los requisitos en productos de tipo texto. Para comprobar cómo verifican las IA hice un pequeño experimento que os cuento a continuación.
Procedimiento
Hice las pruebas en tres IA de acceso gratuito, usando la versión web sin suscripción: ChatGPT, Claude y Gemini. Todas ellas admiten añadir archivos PDF (se añaden con el botón "+" en la barra de preguntas).
Utilicé un guion de vídeo, elaborado por mi equipo y la presentación del proyecto, que contiene los requisitos a cumplir por el guion. Añadí ambos documentos a cada IA. Después lancé la siguiente petición:
"Aquí tienes las instrucciones del proyecto y el producto a entregar. Analiza si el producto cumple todas las peticiones indicadas en el documento de presentación. Para cada petición indica: si se cumple, no se cumple o no se puede verificar, y justifica brevemente tu respuesta."
Analicé los siguientes criterios en cada respuesta:
- Requisitos explícitos: si identificaba los que aparecen en el documento de presentación.
- Requisitos implícitos: si detectaba los que se derivan del contexto: párrafos previos o notas al pie.
- Precisión: si señalaba errores reales o inventaba problemas inexistentes.
- Profundidad: si se limitaba a revisar superficialmente, marcando las peticiones cumplidas, o si, además, razonaba el porqué, detectaba problemas no evidentes o aportaba contexto útil para entender la gravedad de cada fallo.
- Utilidad práctica: si la explicación aportada por la IA permitía mejorar el documento.
Resumen de los resultados
Las tres IA fueron útiles para detectar errores, aunque no siempre los mismos:
- ChatGPT y Claude identificaron un problema de ausencia de las URL en la bibliografía. Sin embargo, Gemini lo pasó por alto.
- Gemini fue la única que confirmó con seguridad el cumplimiento de la petición de un porcentaje de tomas originales y de un rango de tiempo para la producción del vídeo sobre el guion. Las otras dos IA lo dejaron como "no verificable".
- Quizá el error del guion más relevante era no mencionar cuál era el papel de las TIC sobre el tema tratado, como se pedía. Este error lo detectaron Claude y Gemini, aunque Gemini de manera más clara y proponiendo una solución. ChatGPT solamente lo mencionó.
Pruebas con ChatGPT (GPT-4o)
ChatGPT ofreció la revisión más estructurada y fácil de leer. Respondió con una tabla de 16 peticiones, presentes en la presentación del proyecto, indicando para cada una si se cumplía, no se cumplía o no se podía verificar. Además, incluía una justificación breve. Identificó correctamente la mayor parte de las peticiones formales y detectó la ausencia de las URL en la bibliografía. Apenas mencionó que los diálogos no incluían contenido sobre el papel de las TIC. Cerró con un resumen global y se ofreció a dar una nota estimada o indicar exactamente qué cambiar para sacar un 10.
Pruebas con Claude (Sonnet)
Claude redactó párrafos por sección en lugar de una tabla, algo menos práctico visualmente pero más profundo en el análisis. Fue el que mejor describió el problema de fondo del producto, que funcionaba como un vídeo de concienciación emocional en lugar de uno informativo, que era lo que pedía el proyecto. También detectó la ausencia de las URL y realizó observaciones adicionales no pedidas, como el riesgo de que la Escena 3 no transmitiera el mensaje sin diálogo ni texto. Sin embargo, cometió un error de interpretación al señalar que el producto no especificaba el tiempo de grabación y edición, a pesar de que no se pedía ese dato en el producto.
Pruebas Gemini (Google)
Gemini utilizó un formato de tabla por bloques temáticos, claro y fácil de seguir. Fue la más precisa en dos aspectos que las demás dejaron sin resolver: confirmar con argumentos que las tomas originales superaban el 30%. Además, valoró el tiempo de edición como realista y asumible. También fue la única que marcó directamente como "no cumple" la ausencia de contenido sobre las TIC y propuso una solución concreta para la Escena 5. Su único fallo notable fue no detectar la ausencia de las URL en la bibliografía.
¿Merece, entonces, la pena usar una IA para verificar instrucciones?
Sí, pero con algunos matices. La IA puede ser una herramienta muy útil para revisar entregables y comprobar si cumplen requisitos. Permiten detectar errores formales, inconsistencias y aspectos mejorables de forma rápida. Sin embargo, por el momento (2026) parece que ninguna IA es completamente fiable, ya que ocasionalmente cometen errores, omiten información relevante o interpretan mal algún criterio.
Por tanto, dan un buen servicio para complementar la revisión humana, y mejorar la calidad de la verificación, pero no podemos confiar en ellas al 100%. Utilizar varias herramientas y contrastar sus respuestas mejora aun más la calidad de la comprobación de cumplimiento de instrucciones.
No comments:
Post a Comment