AI QA Engineer – Calidad y Evaluación de IA Generativa

Be.Change Consulting

AI QA Engineer ensuring quality in generative AI systems. Responsible for evaluation frameworks, automated testing, and continuous validation processes at Be.change Consulting.

Posted 5/13/2026full-timeRemote • 🇨🇴 ColombiaMid-LevelSeniorWebsite

Tech Stack

Tools & technologies

AWSAzureCloudGoogle Cloud PlatformPython

About the role

Key responsibilities & impact

Diseñar, validar y mejorar frameworks de evaluación para agentes de IA.
Implementar suites de pruebas automatizadas y regresión para modelos generativos.
Definir y monitorear métricas de calidad relacionadas con: Relevancia, Fidelidad, Coherencia, Precisión y Hallucinations.
Construir sistemas de evaluación tipo “LLM-as-a-Judge”.
Establecer benchmarks de desempeño para nuevos modelos y agentes existentes.
Validar actualizaciones de prompts, modelos y pipelines RAG.
Colaborar con equipos de IA y desarrollo para definir criterios de aceptación (pass/fail).
Analizar resultados de evaluación y proponer mejoras continuas.
Generar reportes métricos y trazabilidad sobre la calidad de los agentes.

Requirements

What you’ll need

Minimo 3 años de experiencia en QA automation, Data/AI Quality o evaluación de sistemas de IA.
Experiencia avanzada en Python.
Experiencia trabajando con frameworks de evaluación de IA como: RAGAS, DeepEval, Vertex Gen AI Evaluation Service.
Experiencia evaluando sistemas RAG y modelos LLM.
Capacidad para diseñar sistemas “LLM-as-a-Judge”.
Experiencia en automatización de pruebas y validaciones.
Conocimiento en: Evaluación de prompts, Calidad de respuestas, Benchmarking de modelos y Testing de IA generativa.
Conocimiento de métricas de: Groundedness, Faithfulness, Context relevance, Answer relevance.
Experiencia trabajando con sistemas no deterministas.
Deseable: Experiencia en plataformas de IA conversacional.
Conocimiento en pipelines RAG.
Experiencia con APIs de modelos generativos.
Manejo de herramientas de observabilidad y monitoreo.
Conocimiento en MLOps o LLMOps.
Experiencia en ambientes cloud (GCP, AWS o Azure).

Benefits

Comp & perks

Modalidad: 100% Remoto
Excelente ambiente y laboral
Oportunidad de crecimiento y participación en proyectos innovadores.

ATS Keywords

✓ Tailor your resume

Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard Skills & Tools

PythonQA automationevaluación de sistemas de IAautomatización de pruebasvalidacionesevaluación de promptsbenchmarking de modelostesting de IA generativaMLOpsLLMOps

Soft Skills

colaboraciónanálisis de resultadosmejoras continuas