Auditoría de seguridad para sistemas de IA (LLM) — OWASP LLM Top 10
Si contrató una evaluación en el laboratorio (CORNER · Sec4AI · AwareLab · UAI · CENIA), puede revisar y verificar su informe aquí. El procesamiento ocurre en su navegador; no almacenamos sus archivos en el servidor.
Cargue el informe PDF o el JSON de resultados (modo 3, juez LLM). Revise ASR por categoría OWASP.
Cargar evaluación →Verifique su certificado: QR del PDF o verification_manifest.json.
También: Calibración experta (Garak) · Marco OWASP LLM · Portal EsBBQ+
SandboxIA es un sandbox de auditoría de seguridad para sistemas de IA (modelos de lenguaje). Evaluamos el modelo frente a vulnerabilidades estándar y generamos reporte ejecutivo y evidencia por fallo para que el dueño del modelo pueda validar y reproducir los hallazgos.
Alcance: OWASP LLM Top 10 (Prompt Injection, Information Disclosure, Output Handling, Prompt Leakage, Misinformation, Unbounded Consumption, etc.) y extensión LLM101 (sesgos y toxicidad), alineado con técnicas MITRE ATLAS cuando aplica.
Métricas: ASR (Attack Success Rate), Security Score y clasificación de riesgo (bajo / moderado / alto / crítico) según estándares OWASP y NIST AI Risk Management Framework.
Evidencia: Para cada caso vulnerable entregamos prompt exacto, respuesta del modelo y razón del fallo, de modo que el ejercicio sea auditable y reproducible. Incluimos traducción EN→ES de fallos y mutación de casos para ampliar la batería.
Por ahora SandboxIA se concentra en la evaluación del modelo (comportamiento ante prompts, fugas de información, consumo de recursos, etc.). Un modelo, sin embargo, suele operar dentro de un software que a su vez está inserto en una organización; por eso el proyecto contempla ir incorporando más adelante:
Estas líneas amplían el alcance desde el modelo aislado hacia el sistema y el entorno organizacional.
Evaluación del modelo: on premise
La corrida de auditoría (sandbox, ataques, generación de informe) se ejecuta en entorno acordado con el laboratorio. Para consultas sobre próximos releases o evaluaciones:
El flujo sigue fases configurables, en este orden: