Las iniciativas de inteligencia artificial, y en particular los grandes modelos lingüísticos (LLM), están pasando de los laboratorios de investigación a los sistemas de producción a una velocidad sin precedentes. Las organizaciones las están integrando en los chatbots del servicio de atención al cliente, las herramientas para desarrolladores, las canalizaciones de contenido e incluso en los procesos críticos de toma de decisiones. Para los equipos técnicos, este cambio conlleva tanto oportunidades como riesgos.

Ya se han reportado muchas vulnerabilidades, que incluyen, entre otras,

Indicaciones manipuladas
Fugas de datos no intencionadas
Cadenas de suministro envenenadas
Y costos de computación desorbitados

‍

A diferencia de las fallas tradicionales de las aplicaciones, estas vulnerabilidades suelen ser sutiles y difíciles de detectar sin un marco claro.

Es por eso que el Los 10 mejores de OWASP para aplicaciones de LLM (2025) importa. Proporciona un estándar y un marco para que los ingenieros, los equipos de seguridad y los responsables de la toma de decisiones evalúen los riesgos específicos de los sistemas de IA. Este blog analiza cada uno de esos riesgos, los conecta con los impactos empresariales y destaca cómo las prácticas de seguridad modernas pueden ayudar a gestionarlos.

Por qué los equipos de seguridad y desarrollo deben preocuparse

Las juntas directivas y los ejecutivos ven cada vez más la inteligencia artificial como una ventaja competitiva. Pero son los ingenieros, desarrolladores y profesionales de la seguridad quienes asumen la responsabilidad de hacer que estos sistemas sean seguros y sostenibles.

El Top 10 de OWASP para LLM presenta riesgos que están fuera de los límites de los modelos tradicionales de seguridad de aplicaciones. La inyección inmediata, el envenenamiento del modelo y la fuga inmediata del sistema tienen un aspecto diferente al Inyección de SQL o secuencias de comandos entre sitios, sin embargo, sus consecuencias empresariales pueden ser igual de graves.

Para los profesionales técnicos, ignorar estos riesgos no es una opción. Los ejecutivos esperan que los equipos continúen integrando los LLM en los flujos de trabajo existentes, sin comprometer la productividad o la resiliencia. Sin embargo, un modelo mal configurado puede exponer datos confidenciales, aumentar las responsabilidades de cumplimiento o convertirse en un nuevo punto de entrada para los atacantes.

A través de su proyecto Top 10 for LLM Applications, OWASP proporciona un marco que ayuda a traducir las complejidades de la IA en prioridades de seguridad claras en un lenguaje en el que los desarrolladores, TI y equipos de seguridad puedan actuar.

Los 10 mejores LLM de OWASP: un rápido desglose técnico

Definamos primero cada uno de los 10 riesgos y expliquemos cómo se manifiestan en los sistemas habilitados para LLM. Inmediatamente después, mostraremos sus impactos empresariales y sus estrategias de mitigación en una tabla comparativa.

LLM01:2025 Inyección inmediata

La inyección inmediata se produce cuando un atacante proporciona texto elaborado que anula o altera las instrucciones previstas de un LLM. Como el modelo procesa todas las entradas como guía contextual, las instrucciones hostiles pueden subvertir el comportamiento normal, exponer instrucciones ocultas o desencadenar acciones que van más allá del diseño del sistema.

Mecánica

Esto ocurre cuando la entrada del usuario no validada o el contenido externo se transfieren al modelo sin salvaguardas. Una vez inyectado, el texto malintencionado puede secuestrar los resultados u obligar al modelo a divulgar información que supuestamente es confidencial.

Los vectores de ataque probables incluyen:

Se introdujeron consultas malintencionadas en un chatbot público para anular sus instrucciones.
Instrucciones hostiles incrustadas en documentos recuperados por un oleoducto RAG.
Contenido contaminado de fuentes de datos de terceros que se ingiere y ejecuta como contexto confiable.

‍

LLM02:2025 Divulgación de información confidencial

La divulgación de información confidencial se produce cuando un LLM expone involuntariamente datos personales, secretos comerciales o detalles del modelo propietario a través de sus resultados. Este riesgo abarca tanto los datos que se introducen en el modelo (formación o tiempo de ejecución) como el contexto de la aplicación en el que opera.

Mecánica

La divulgación se produce cuando las entradas no se desinfectan adecuadamente, cuando los datos de entrenamiento incluyen material confidencial o cuando las instrucciones contradictorias engañan al modelo para que eluda las medidas de protección. Estas filtraciones socavan los requisitos de privacidad, cumplimiento y propiedad intelectual.

Los vectores de ataque probables incluyen:

Un LLM devuelve la información personal de otro usuario debido a una mala depuración de los datos.
Un atacante omite los filtros y extrae detalles confidenciales del contexto del modelo.
La información confidencial incluida en la capacitación se reproduce en los resultados, lo que expone datos comerciales o de clientes confidenciales.

‍

LLM03: Riesgos de la cadena de suministro de 2025

Los riesgos de la cadena de suministro surgen cuando los componentes, las herramientas o los servicios que respaldan una LLM se ven comprometidos. Dado que las aplicaciones de LLM dependen en gran medida de dependencias externas (modelos previamente entrenados, API de terceros, bibliotecas, conjuntos de datos y complementos), cualquier punto débil en esta cadena puede provocar comportamientos malintencionados o generar vulnerabilidades en etapas posteriores.

Mecánica

Estos riesgos se producen cuando las organizaciones adoptan modelos o dependencias externas sin suficiente validación, comprobaciones de integridad o supervisión. Un modelo, una biblioteca o un complemento comprometidos pueden inyectar código malintencionado de forma silenciosa, alterar los resultados o exponer los sistemas a riesgos más amplios.

Los vectores de ataque probables incluyen:

Una biblioteca maliciosa de terceros utilizada para preprocesar datos introduce puertas traseras en el proceso de LLM.
Un modelo previamente entrenado comprometido de una fuente externa propaga las vulnerabilidades ocultas a un sistema de producción.
Un atacante publica un modelo falso con un nombre de confianza e incorpora malware y puertas traseras.

‍

LLM04: Envenenamiento de datos y modelos de 2025

El envenenamiento de datos y modelos se produce cuando actores malintencionados manipulan conjuntos de datos o ajustan procesos para incorporar puertas traseras, sesgos o comportamientos dañinos en un LLM. Estas manipulaciones comprometen la integridad del modelo, degradan la precisión, la equidad y la confiabilidad, al tiempo que abren vías para la explotación.

Mecánica

El envenenamiento puede ocurrir en varias etapas del ciclo de vida del modelo: antes del entrenamiento, el ajuste fino o la integración. Los atacantes introducen datos tóxicos o falsificados en el corpus de entrenamiento o modifican los parámetros para que el modelo se comporte con normalidad en la mayoría de las condiciones, pero no se active cuando se activa un activador oculto.

Los vectores de ataque probables incluyen:

Manipular los datos de entrenamiento para que el modelo difunda información errónea o resultados sesgados.
Inyectar documentos falsificados durante la capacitación, lo que lleva al modelo a producir resultados inexactos.
Insertar un activador de puerta trasera que permita la omisión de la autenticación, la ejecución de comandos ocultos o la exfiltración de datos.

Leer más: Configuración de ModSecurity con OWASP CRS — Parte 1

‍

LLM05:2025 Manejo de salida incorrecto

El manejo incorrecto de los resultados ocurre cuando las aplicaciones consumen respuestas de LLM sin validación ni desinfección. Dado que los resultados de los modelos pueden contener datos que no son confiables, si no se tratan con cuidado se puede dar lugar a ataques por inyección, filtraciones de información o automatizaciones inseguras.

Mecánica

Este riesgo surge cuando los desarrolladores asumen que los resultados de LLM son intrínsecamente seguros y los utilizan directamente en aplicaciones, registros o sistemas posteriores. Los atacantes aprovechan esta confianza creando entradas que conducen a salidas que contienen código o instrucciones malintencionadas, que luego se ejecutan sin comprobaciones.

Los vectores de ataque probables incluyen:

Un LLM genera comandos SQL que se ejecutan directamente, lo que genera vulnerabilidades de inyección.
Un modelo genera HTML/JavaScript no saneado que se representa en una aplicación web, lo que provoca XSS.
Las sugerencias de código generadas con funciones inseguras se utilizan en producción, lo que introduce defectos explotables.

‍

LLM06:2025 Agencia excesiva

Los riesgos excesivos de las agencias se producen cuando los agentes de IA impulsados por LLM reciben demasiada funcionalidad, autonomía o control sobre los sistemas externos sin salvaguardas. Cuando se conectan a herramientas, complementos o API, estos agentes pueden realizar operaciones no deseadas o dañinas.

Mecánica

Esta vulnerabilidad surge cuando los desarrolladores otorgan a los agentes amplios permisos o derechos de ejecución sin las restricciones adecuadas. Como los resultados del modelo se tratan como instrucciones confiables, una entrada malintencionada o manipulada puede desencadenar acciones inseguras que los usuarios nunca pretendieron.

Los vectores de ataque probables incluyen:

Un agente con acceso a nivel de sistema elimina los archivos críticos después de recibir una solicitud diseñada.
Un agente autónomo ejecuta transacciones financieras sin la aprobación del usuario.
Un agente que controla los sistemas industriales o de IoT ejecuta comandos peligrosos debido a la manipulación de entradas.

‍

LLM07: Fuga inmediata del sistema 2025

La filtración inmediata del sistema se produce cuando las instrucciones ocultas o internas que se dan a un LLM quedan expuestas a los usuarios o atacantes. Estas instrucciones del sistema suelen contener detalles confidenciales de configuración, lógica operativa o controles de seguridad que determinan el comportamiento del modelo.

Mecánica

Esta vulnerabilidad surge cuando los modelos no pueden enmascarar o proteger suficientemente las indicaciones del sistema subyacente. Los atacantes pueden extraer estas indicaciones directamente mediante consultas elaboradas o indirectamente cuando el modelo las revela como parte de sus respuestas. Una vez filtradas, los adversarios pueden aplicar ingeniería inversa a las protecciones o manipular el comportamiento del modelo.

Los vectores de ataque probables incluyen:

Se filtra un aviso del sistema que contiene las credenciales de una herramienta integrada, lo que permite a los atacantes hacer un mal uso de esas credenciales.
Un atacante extrae un aviso del sistema que prohíbe el contenido, los enlaces y la ejecución de código ofensivos y, a continuación, omite esos controles con una inyección de mensajes para lograr la ejecución remota de código.
Se divulgan las directrices internas para desarrolladores integradas en el indicador del sistema, lo que permite a los adversarios manipular las medidas de seguridad.

‍

LLM08:2025 Debilidades vectoriales y de incrustación

Las debilidades vectoriales y de incrustación se producen cuando se explota la representación de datos en espacios vectoriales de alta dimensión. Como las incrustaciones se suelen utilizar para la búsqueda semántica, la generación aumentada con recuperación (RAG) o la agrupación en clústeres, los atacantes pueden manipularlas para eludir los controles o recuperar información no deseada.

Mecánica

El riesgo surge cuando la incorporación de modelos o bases de datos vectoriales no exige la validación o el filtrado. Las entradas malintencionadas diseñadas para que parezcan similares en el espacio vectorial pueden confundir a los sistemas y provocar la filtración de datos o la creación de asociaciones inapropiadas.

Los vectores de ataque probables incluyen:

Un currículum oculta instrucciones maliciosas en texto blanco sobre blanco. Cuando un sistema de selección basado en RAG lo procesa para convertirlo en incrustaciones, el LLM recomienda un candidato no calificado.
En un entorno multiusuario, las consultas de LLM de otro grupo recuperan inadvertidamente las incrustaciones de un grupo, lo que filtra información empresarial confidencial.
El contenido envenenado incrustado en una base de conocimientos hace que el LLM recupere información manipulada y actúe sobre ella.

‍

LLM09:2025 Información errónea

La información errónea se produce cuando un LLM genera resultados inexactos, inventados o engañosos que se tratan como hechos. Si bien no siempre son el resultado de acciones malintencionadas, estas «alucinaciones» pueden tener consecuencias graves si se incorporan a flujos de trabajo críticos. Los atacantes también pueden aprovechar esta debilidad para generar información falsa.

Mecánica

El riesgo surge cuando los productos de los LLM se consumen sin verificación de datos, validación o barandillas. La información errónea puede propagarse a través de las aplicaciones, los informes o las sugerencias de código, y generar resultados inseguros o poco fiables.

Los vectores de ataque probables incluyen:

Un asistente de programación alucina el nombre de un paquete. Los atacantes publican una biblioteca maliciosa con ese nombre y los desarrolladores la instalan, lo que genera puertas traseras.
Un chatbot de atención médica brinda consejos médicos inseguros, lo que resulta en daños al paciente y en responsabilidad legal para el proveedor.
Un LLM educativo genera citas inventadas que engañan a los estudiantes e investigadores que confían en sus resultados.

‍

LLM10:2025 Consumo ilimitado

El consumo ilimitado se produce cuando un LLM procesa entradas excesivas o descontroladas, lo que lleva a un uso descontrolado de los recursos computacionales o financieros. Dado que la inferencia es costosa, esta debilidad expone a los sistemas a la denegación de servicio, a la pérdida de recursos económicos o incluso al robo de propiedad intelectual mediante la replicación de modelos a gran escala.

Mecánica

El problema surge cuando las aplicaciones permiten consultas ilimitadas o no validadas. Los atacantes pueden inundar los sistemas con entradas sobredimensionadas, repetir las solicitudes a gran escala o crear solicitudes que consuman muchos recursos. Esto no solo interrumpe el servicio para los usuarios legítimos, sino que también corre el riesgo de que los costos de la nube sean insostenibles y de que los modelos propietarios queden expuestos.

Los vectores de ataque probables incluyen:

Un atacante envía una entrada sobredimensionada que consume un exceso de memoria, GPU y computación en la nube, lo que ralentiza o bloquea el servicio.
Las solicitudes de API repetidas y de gran volumen acaparan los recursos y niegan el acceso a los usuarios legítimos, al igual que un ataque DoS
Los atacantes generan datos de entrenamiento sintéticos a través de la API del LLM, ajustando su propio modelo para replicar su funcionalidad.

‍Leer más: Configuración de ModSecurity con OWASP CRS — Parte II

Prioridades de mitigación e impacto empresarial

Para facilitar la traducción de estos riesgos a términos comerciales, la siguiente tabla asigna cada categoría de OWASP a su posible impacto organizacional y a las prioridades de mitigación en las que deben centrarse los equipos técnicos.

Risk ID	Business Impact	Mitigation Priority
LLM01: Prompt Injection	Data leakage Manipulated outputs Potential system compromise via untrusted instructions	Validate and sanitise inputs Constrain model context Monitor for injection attempts
LLM02: Sensitive Information Disclosure	Breach of privacy Compliance violations (e.g., NZ Privacy Act 2020, HIPC, PCI DSS) Exposure of IP or customer data	Implement strict data sanitisation Restrict model access to sensitive context Add monitoring and redaction
LLM03: Supply Chain Risks	Introduction of backdoors, malware, or vulnerabilities via compromised models, APIs, or libraries	Vet and validate third-party models/services Apply integrity checks Maintain provenance tracking
LLM04: Data & Model Poisoning	Reduced accuracy Hidden backdoors Manipulated behaviours Long-term compromise of model trust	Control training data sources Validate fine-tuning inputs Monitor for anomalous behaviour
LLM05: Improper Output Handling	Injection vulnerabilities XSS Insecure code execution Business process compromise	Treat outputs as untrusted Apply sanitisation and validation Avoid direct execution of model responses
LLM06: Excessive Agency	Financial loss System damage Unsafe automation when AI agents act without limits	Apply least-privilege to agents Restrict tool/API access Enforce human-in-the-loop for critical actions
LLM07: System Prompt Leakage	Credential exposure Bypass of safety controls Reverse-engineering of protections	Mask or encrypt system prompts Separate sensitive data from prompts Detect and block extraction attempts
LLM08: Vector & Embedding Weaknesses	Data leakage across tenants Manipulated retrievals Poisoned knowledge bases	Validate embeddings Isolate tenants in vector databases Monitor for poisoned or adversarial entries
LLM09: Misinformation	Unsafe outputs Reputational damage Legal liability from false advice or fabricated content	Apply fact-checking pipelines Constrain LLM use in high-risk domains Require human review for critical outputs
LLM10: Unbounded Consumption	Denial of service Runaway compute costs Model replication leading to IP theft	Enforce rate limits and quotas Validate input sizes Monitor for large-scale extraction attempts

‍

Cómo Blacklock le ayuda a proteger las aplicaciones impulsadas por LLM

El Top 10 de OWASP para LLM muestra que estos riesgos abarcan la capacitación, el tiempo de ejecución y las operaciones continuas. Por lo tanto, las iniciativas de seguridad de los sistemas de IA requieren una validación continua, no una prueba puntual. Blacklock proporciona la automatización, la cobertura y los resultados centrados en el desarrollador necesarios para poner en práctica estas prácticas.

Para apoyar a los equipos técnicos, Blacklock ofrece varias capacidades que se alinean directamente con el marco de riesgo de OWASP, tales como:

Pruebas de penetración continua

La plataforma PTaaS de Blacklock combina el escaneo automatizado con pruebas manuales en la cobertura de DAST, SAST, API, infraestructura y SBOM. Esto permite a los equipos detectar riesgos como las fallas en las inyecciones (LLM01, LLM05) y los problemas en la cadena de suministro (LLM03) como parte de los ciclos de lanzamiento normales.

Validación de seguridad automatizada

Los desarrolladores pueden volver a probar las correcciones al instante mediante agentes de validación impulsados por IA. Esto acorta los ciclos de corrección de riesgos como la divulgación de información confidencial (LLM02) y la contaminación de datos (LLM04), lo que garantiza que las vulnerabilidades se resuelvan realmente antes de la producción.

Análisis de la cadena de eliminación de vulnerabilidades

Los hallazgos son mapeados en la cadena de exterminio y ordenados en planes de remediación priorizados. Esto ayuda a los equipos a abordar primero las exposiciones más críticas, desde los permisos excesivos de los agentes (LLM06) hasta el consumo ilimitado (LLM10).

Integración del flujo de trabajo para desarrolladores

Blacklock se conecta directamente a GitHub, GitLab, Jira y Azure DevOps, e incorpora la seguridad en las canalizaciones de CI/CD. Las vulnerabilidades se clasifican y rastrean dentro de los flujos de trabajo existentes, lo que reduce la sobrecarga y se alinea con las prácticas de DevSecOps.

¿Le gustaría explorar cómo Blacklock puede ayudar a su organización a poner en práctica estas prácticas? Póngase en contacto con nosotros

Alternativamente, es posible que prefiera en su lugar, obtenga una prueba gratuita de 14 días.

Share this post