Evaluación en Pruebas Nacionales de Capacidades Matemáticas Superiores en la Era de la Inteligencia Artificial

Por

14 de marzo de 2026

La valoración dominante entre los investigadores de la Educación Matemática es que los enfoques psicométricos tradicionales de las pruebas a gran escala han alcanzado un límite crítico. Esta crisis no solo deriva de los formatos de ítems heredados de la era analógica, sino de marcos intelectuales que priorizan la eficiencia estadística sobre la profundidad del pensamiento matemático.

1. Del “Resultado” al “Proceso”: El fin de la Caja Negra

Tradicionalmente, la psicometría se ha centrado en “medir de manera fiable el resultado del aprendizaje” y no el aprendizaje en sí mismo, omitiendo los procesos de pensamiento y comunicación (Suurtamm et al., 2016). Esta circunstancia ha distanciado a las pruebas estandarizadas de las funciones formativas.

Sin embargo, la Inteligencia Artificial (IA) está permitiendo abrir esta “caja negra”. Mediante los Tests Adaptativos Computarizados (CAT), los algoritmos ajustan la dificultad en tiempo real, mientras que la captura de la “traza de datos” (log data) permite analizar no solo si la respuesta es correcta, sino cómo el estudiante interactúa con el problema, sus dudas y sus estrategias de resolución.

2. La Superación del Conductismo y la Selección Única

El formato de selección única, predominante en América Latina por el bajo costo de la revisión óptica, refleja una visión conductista que fragmenta el conocimiento (Scherrer, 2015). Schoenfeld (2007) advierte que estas pruebas poseen un escaso valor diagnóstico y no captan el espectro deseado de la competencia matemática.

En la actualidad, los Modelos de Lenguaje de Gran Escala (LLM) están rompiendo esta limitación al permitir la calificación automatizada de respuestas abiertas. La tecnología actual ya es capaz de evaluar procedimientos complejos, identificar “errores inteligentes” y ofrecer una retroalimentación inmediata, integrando la riqueza de la evaluación de aula en las mediciones a gran escala.

3. Ruptura de Supuestos y el Rol de la Q-Matrix

La psicometría clásica descansa sobre supuestos como la unidimensionalidad y la independencia local (Osterlind, 1998). No obstante, autores como Van den Heuvel-Panhuizen & Becker (2003) sostienen que los buenos problemas matemáticos son inherentemente “desordenados”, multidimensionales y con múltiples vías de solución.

Para abordar esta complejidad, han surgido los Modelos de Clasificación Diagnóstica (MCD). Estos modelos se apoyan en la Matriz-Q (Tatsuoka, 2016) para mapear atributos cognitivos específicos. Gracias a la capacidad de procesamiento de la IA, hoy es posible construir y validar estas matrices de forma mucho más ágil, permitiendo que las pruebas identifiquen con precisión qué habilidades específicas posee o le faltan a un estudiante, logrando un equilibrio entre la escala masiva y la profundidad diagnóstica.

4. Hacia una Enseñanza Propositiva y Desafiante

El reto actual consiste en compatibilizar estos avances tecnológicos con una enseñanza que motive a los estudiantes a “trabajar con problemas mal estructurados del mundo real o resolver problemas desde más de una perspectiva” (Suurtamm et al., 2016). La IA no debe ser solo un medio para calificar más rápido, sino un motor para promover el progreso de las capacidades cognitivas superiores.

Conclusión

En la tercera década del siglo XXI, la discusión debe trascender la técnica. Aunque la tecnología y la IA ofrecen herramientas sin precedentes para captar la complejidad del pensamiento humano, siempre persistirá el desafío ético y pedagógico de asegurar que los instrumentos de evaluación no distorsionen el currículo, sino que potencien una relación profunda y creativa con la matemática.

Referencias

De la Torre, J., et al. (2016). Diagnostic Classification Models and Mathematics Education Research. JRME.
Osterlind, S. J. (1998). Constructing test items. Kluwer Academic Publishers.
Scherrer, J. (2015). Learning, teaching, and assessing the standards for mathematical practice. NCTM.
Schoenfeld, A. (2007). Assessing Mathematical Proficiency. Cambridge University Press.
Suurtamm, C., et al. (2016). Assessment in Mathematics Education. Springer.
Tatsuoka, C. et al. (2016). Developing Workable Attributes for Psychometric Models Based on the Q-Matrix. NCTM.
Van den Heuvel-Panhuizen, M., & Becker, J. (2003). Towards a didactic model for assessment design. Second International Handbook of Mathematics Education.