La IA se está integrando en la vida profesional y privada, alcanzando una adopción generalizada más rápido que la computadora personal o internet. Estos sistemas se prueban en razonamiento, seguridad y tareas del mundo real, pero la fiabilidad de esas mediciones sigue siendo incierta.
El Índice de IA 2026 del Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford describe el contexto general de este crecimiento, incluyendo su valor económico, sus efectos en el mercado laboral y el papel de la soberanía de la IA . También analiza los avances en ciencia y medicina, la saturación de los indicadores de referencia y los marcos de gobernanza que tienen dificultades para mantenerse al día. El sentimiento global refleja este panorama, con un optimismo creciente junto a una persistente inquietud.
Los registros de incidentes siguen aumentando.
El número de incidentes de IA notificados ha aumentado durante el último año, lo que refleja una mayor presencia de estos sistemas en entornos reales. La base de datos de incidentes de IA registró 362 incidentes en 2025, frente a los 233 de 2024. Un estudio independiente de la OCDE muestra un patrón similar, con recuentos mensuales de incidentes que alcanzaron los 435 a principios de 2026 y un promedio sostenido superior a 300 en los últimos meses.
Estas cifras reflejan una variedad de problemas, desde resultados no deseados hasta usos indebidos y fallos operativos. Los sistemas que operan en canales de atención al cliente o en procesos de automatización interna funcionan ahora a una escala tal que los pequeños errores pueden detectarse rápidamente y observarse en múltiples entornos. Los informes reflejan esta exposición, con un mayor número de casos que se registran en bases de datos públicas o semipúblicas a medida que se expande la implementación. Los equipos responsables de la monitorización de estos sistemas trabajan con un volumen creciente de señales que requieren priorización, clasificación y respuesta.
En muchos casos, estos incidentes no siguen los patrones habituales en entornos de software. Los resultados pueden variar según el contexto, la formulación de la entrada o el historial de interacciones, lo que dificulta la reproducción y el análisis de los problemas. Esto añade complejidad a la respuesta ante incidentes, ya que los equipos deben interpretar un comportamiento del sistema que no siempre se corresponde directamente con los estados de fallo definidos.
El acceso a los modelos se está volviendo más controlado.
La forma en que se publican los modelos de IA ha evolucionado hacia un acceso restringido. La mayoría de los modelos más destacados provienen ahora de la industria, y muchos se distribuyen a través de API que limitan la interacción de los usuarios con ellos. Entre los modelos analizados en 2025, la publicación mediante API fue el enfoque más común, lo que influyó en cómo las organizaciones integran estos sistemas en sus flujos de trabajo.
El código de entrenamiento rara vez se comparte. La mayoría de los modelos se publican sin el código utilizado para construirlos, y solo unos pocos lo ponen a disposición del público. Esto limita la capacidad de equipos externos para reproducir resultados, examinar métodos de entrenamiento o probar sistemas fuera de las condiciones definidas por sus desarrolladores . También restringe el alcance de la validación independiente, que históricamente ha sido fundamental para identificar debilidades o comportamientos inesperados.
El acceso limitado también afecta la forma en que las organizaciones evalúan a los proveedores y las herramientas antes de su implementación. Sin visibilidad de los procesos de capacitación o la arquitectura del modelo, las evaluaciones suelen centrarse en el rendimiento observado y el comportamiento documentado. Esto otorga mayor importancia a las pruebas durante la integración y al monitoreo una vez que los sistemas están en uso.
Los índices de transparencia disminuyen.
El nivel general de transparencia en torno a los modelos de infraestructura ha disminuido. El Índice de Transparencia de Modelos de Infraestructura bajó de una puntuación media de 58 en 2024 a 40 en 2025. Las puntuaciones más bajas se observan en categorías relacionadas con la forma en que se construyen los modelos y lo que sucede después de su implementación, incluyendo las fuentes de datos, los recursos informáticos y el impacto posterior.
Esto afecta la forma en que las organizaciones evalúan los sistemas que adoptan. La información sobre cómo acceder a un modelo suele estar disponible a través de la documentación y las interfaces, mientras que los detalles sobre los datos de capacitación , las limitaciones del sistema o los efectos a largo plazo se divulgan con menos frecuencia. Este desequilibrio genera lagunas en la información necesaria para la evaluación de riesgos y la gobernanza , especialmente cuando los sistemas se integran en procesos críticos.
La menor transparencia también limita la capacidad de comparar sistemas más allá de las características superficiales. Los equipos pueden recurrir a documentación parcial o análisis de terceros para comprender las diferencias entre los modelos, lo que puede generar incertidumbre en las decisiones de selección e implementación.
Las pruebas de capacidad siguen siendo más visibles que las pruebas de seguridad.
Los desarrolladores de modelos siguen publicando resultados de pruebas comparativas que miden el razonamiento, la codificación y el rendimiento general en tareas. Estas evaluaciones son ampliamente utilizadas y proporcionan un punto de referencia común para comparar las capacidades de los sistemas entre diferentes modelos.
Los indicadores de seguridad se reportan con menos frecuencia y abarcan un conjunto más limitado de modelos. Las categorías que analizan resultados perjudiciales, sesgos o escenarios de uso indebido aparecen en menos informes y carecen de una estructura de reporte consistente. Esta cobertura desigual reduce la capacidad de comparar sistemas en función de su comportamiento en condiciones de riesgo, incluso cuando existen indicadores de capacidad ampliamente disponibles. En la práctica, los equipos que evalúan sistemas de IA suelen combinar datos publicados limitados con sus propias pruebas internas.
En la vanguardia tecnológica, los modelos líderes son prácticamente indistinguibles entre sí. Los modelos de ponderación abierta son más competitivos que nunca. Sin embargo, a medida que los modelos convergen, las herramientas utilizadas para evaluarlos luchan por mantenerse relevantes. Los puntos de referencia se están saturando, los laboratorios de vanguardia divulgan menos información y las pruebas independientes no siempre confirman lo que informan los desarrolladores, afirmaron Yolanda Gil y Raymond Perrault , copresidentes del Informe del Índice de IA.
Las prácticas de supervisión se están adaptando a la visibilidad limitada.
Los sistemas de IA se están integrando en flujos de trabajo que no fueron diseñados originalmente para la toma de decisiones autónoma ni para generar resultados probabilísticos. Esto genera nuevas exigencias en los procesos de supervisión, especialmente en áreas donde los sistemas interactúan con los usuarios, generan contenido o influyen en las decisiones operativas.
Los equipos de seguridad y gestión de riesgos se están adaptando, haciendo mayor hincapié en la monitorización continua y la validación interna. En muchos casos, la evaluación no se basa únicamente en los parámetros de referencia publicados. Las organizaciones están creando sus propios entornos de prueba para observar cómo se comportan los modelos en condiciones específicas relevantes para sus operaciones.
Los equipos están desarrollando procesos para clasificar y responder a problemas relacionados con la IA que no se ajustan a categorías como errores de software o vulnerabilidades de seguridad. Estos incidentes pueden implicar resultados ambiguos, comportamientos inesperados del modelo o interacciones que producen resultados no deseados sin un punto de fallo definido.
Las relaciones con los proveedores también están cambiando en estas circunstancias. Cuando el acceso a los detalles del modelo subyacente es limitado, las organizaciones dependen más de los términos contractuales, los controles de uso y las expectativas de nivel de servicio para definir la responsabilidad. Esto otorga mayor importancia a cómo se implementan y supervisan los modelos después de la integración, y menos énfasis en cómo se desarrollaron originalmente.
Estos ajustes reflejan una transición más amplia en la forma en que se gestionan los sistemas de IA en entornos de producción. La supervisión se está convirtiendo en un proceso continuo vinculado al comportamiento del sistema en uso, condicionado por los controles internos y la experiencia operativa, y no por la visibilidad externa del diseño del modelo.
Fuente y redacción: helpnetsecurity.com

