FREE ACCESS
5,000–10,000 jobs/day

See all jobs on JobTailor
Search thousands of fresh jobs every day.
Discover
- Fresh listings
- Fast filters
- No subscription required
Create a free account and start exploring right away.

AI QA Engineer – Calidad y Evaluación de IA Generativa
Be.Change ConsultingAI QA Engineer ensuring quality in generative AI systems. Responsible for evaluation frameworks, automated testing, and continuous validation processes at Be.change Consulting.
Tech Stack
Tools & technologiesAWSAzureCloudGoogle Cloud PlatformPython
About the role
Key responsibilities & impact- Diseñar, validar y mejorar frameworks de evaluación para agentes de IA.
- Implementar suites de pruebas automatizadas y regresión para modelos generativos.
- Definir y monitorear métricas de calidad relacionadas con: Relevancia, Fidelidad, Coherencia, Precisión y Hallucinations.
- Construir sistemas de evaluación tipo “LLM-as-a-Judge”.
- Establecer benchmarks de desempeño para nuevos modelos y agentes existentes.
- Validar actualizaciones de prompts, modelos y pipelines RAG.
- Colaborar con equipos de IA y desarrollo para definir criterios de aceptación (pass/fail).
- Analizar resultados de evaluación y proponer mejoras continuas.
- Generar reportes métricos y trazabilidad sobre la calidad de los agentes.
Requirements
What you’ll need- Minimo 3 años de experiencia en QA automation, Data/AI Quality o evaluación de sistemas de IA.
- Experiencia avanzada en Python.
- Experiencia trabajando con frameworks de evaluación de IA como: RAGAS, DeepEval, Vertex Gen AI Evaluation Service.
- Experiencia evaluando sistemas RAG y modelos LLM.
- Capacidad para diseñar sistemas “LLM-as-a-Judge”.
- Experiencia en automatización de pruebas y validaciones.
- Conocimiento en: Evaluación de prompts, Calidad de respuestas, Benchmarking de modelos y Testing de IA generativa.
- Conocimiento de métricas de: Groundedness, Faithfulness, Context relevance, Answer relevance.
- Experiencia trabajando con sistemas no deterministas.
- Deseable: Experiencia en plataformas de IA conversacional.
- Conocimiento en pipelines RAG.
- Experiencia con APIs de modelos generativos.
- Manejo de herramientas de observabilidad y monitoreo.
- Conocimiento en MLOps o LLMOps.
- Experiencia en ambientes cloud (GCP, AWS o Azure).
Benefits
Comp & perks- Modalidad: 100% Remoto
- Excelente ambiente y laboral
- Oportunidad de crecimiento y participación en proyectos innovadores.
ATS Keywords
✓ Tailor your resumeApplicant Tracking System Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard Skills & Tools
PythonQA automationevaluación de sistemas de IAautomatización de pruebasvalidacionesevaluación de promptsbenchmarking de modelostesting de IA generativaMLOpsLLMOps
Soft Skills
colaboraciónanálisis de resultadosmejoras continuas