SandboxIA.aware

Auditoría de seguridad para sistemas de IA (LLM) — OWASP LLM Top 10

Herramientas web (clientes)

Si contrató una evaluación en el laboratorio (CORNER · Sec4AI · AwareLab · UAI · CENIA), puede revisar y verificar su informe aquí. El procesamiento ocurre en su navegador; no almacenamos sus archivos en el servidor.

Evaluación Garak / OWASP LLM

Cargue el informe PDF o el JSON de resultados (modo 3, juez LLM). Revise ASR por categoría OWASP.

Cargar evaluación →

Abstención segura EsBBQ+

Verifique su certificado: QR del PDF o verification_manifest.json.

Verificar reporte →

También: Calibración experta (Garak) · Marco OWASP LLM · Portal EsBBQ+

Qué medimos

SandboxIA es un sandbox de auditoría de seguridad para sistemas de IA (modelos de lenguaje). Evaluamos el modelo frente a vulnerabilidades estándar y generamos reporte ejecutivo y evidencia por fallo para que el dueño del modelo pueda validar y reproducir los hallazgos.

Alcance: OWASP LLM Top 10 (Prompt Injection, Information Disclosure, Output Handling, Prompt Leakage, Misinformation, Unbounded Consumption, etc.) y extensión LLM101 (sesgos y toxicidad), alineado con técnicas MITRE ATLAS cuando aplica.

Métricas: ASR (Attack Success Rate), Security Score y clasificación de riesgo (bajo / moderado / alto / crítico) según estándares OWASP y NIST AI Risk Management Framework.

Evidencia: Para cada caso vulnerable entregamos prompt exacto, respuesta del modelo y razón del fallo, de modo que el ejercicio sea auditable y reproducible. Incluimos traducción EN→ES de fallos y mutación de casos para ampliar la batería.

Foco actual y evolución

Por ahora SandboxIA se concentra en la evaluación del modelo (comportamiento ante prompts, fugas de información, consumo de recursos, etc.). Un modelo, sin embargo, suele operar dentro de un software que a su vez está inserto en una organización; por eso el proyecto contempla ir incorporando más adelante:

LLM04 — Envenenamiento de datos y del modelo: evaluación de robustez frente a datos o modelos manipulados (cuando el contexto lo permita).
LLM06 — Agencia excesiva: modelos que ejecutan acciones o llaman herramientas; evaluación de límites y controles (disponible en algunos casos de uso LLM).
LLM07 — Filtración de prompt del sistema: ya cubierto en parte en el alcance actual; refuerzo en contexto de sistemas desplegados.
LLM08 — Debilidades en vectores o representaciones vectoriales: embeddings, RAG y componentes que dependen de representaciones vectoriales.

Estas líneas amplían el alcance desde el modelo aislado hacia el sistema y el entorno organizacional.

Evaluación del modelo: on premise

La corrida de auditoría (sandbox, ataques, generación de informe) se ejecuta en entorno acordado con el laboratorio. Para consultas sobre próximos releases o evaluaciones:

contacto@aware-tools.com

Pipeline: de la ingesta a la evidencia

El flujo sigue fases configurables, en este orden:

1. Ingesta
Modelo y alcance
2. Configuración
Vulnerabilidades, herramientas
3. Reconocimiento
Categorías OWASP, técnicas aplicables
4. Generación de ataques
Casos base y mutación
5. Ejecución (Sandbox)
Pruebas en entorno contenido
6. Análisis
Detectores, regex, análisis semántico
7. Scoring
ASR, clasificación de riesgo
8. Evidencia
Reporte PDF/MD, archivos de fallos, paquete para el desarrollador