Apply

Ready to go for it?

AI Apply speeds things up—apply directly if you prefer.

FREE ACCESS
5,000–10,000 jobs/day
JobTailor Logo

See all jobs on JobTailor

Search thousands of fresh jobs every day.

Discover
  • Fresh listings
  • Fast filters
  • No subscription required
Create a free account and start exploring right away.
Be.Change Consulting

AI QA Engineer – Calidad y Evaluación de IA Generativa

Be.Change Consulting

AI QA Engineer ensuring quality in generative AI systems. Responsible for evaluation frameworks, automated testing, and continuous validation processes at Be.change Consulting.

Posted 5/13/2026full-timeRemote • 🇨🇴 ColombiaMid-LevelSeniorWebsite

Tech Stack

Tools & technologies
AWSAzureCloudGoogle Cloud PlatformPython

About the role

Key responsibilities & impact
  • Diseñar, validar y mejorar frameworks de evaluación para agentes de IA.
  • Implementar suites de pruebas automatizadas y regresión para modelos generativos.
  • Definir y monitorear métricas de calidad relacionadas con: Relevancia, Fidelidad, Coherencia, Precisión y Hallucinations.
  • Construir sistemas de evaluación tipo “LLM-as-a-Judge”.
  • Establecer benchmarks de desempeño para nuevos modelos y agentes existentes.
  • Validar actualizaciones de prompts, modelos y pipelines RAG.
  • Colaborar con equipos de IA y desarrollo para definir criterios de aceptación (pass/fail).
  • Analizar resultados de evaluación y proponer mejoras continuas.
  • Generar reportes métricos y trazabilidad sobre la calidad de los agentes.

Requirements

What you’ll need
  • Minimo 3 años de experiencia en QA automation, Data/AI Quality o evaluación de sistemas de IA.
  • Experiencia avanzada en Python.
  • Experiencia trabajando con frameworks de evaluación de IA como: RAGAS, DeepEval, Vertex Gen AI Evaluation Service.
  • Experiencia evaluando sistemas RAG y modelos LLM.
  • Capacidad para diseñar sistemas “LLM-as-a-Judge”.
  • Experiencia en automatización de pruebas y validaciones.
  • Conocimiento en: Evaluación de prompts, Calidad de respuestas, Benchmarking de modelos y Testing de IA generativa.
  • Conocimiento de métricas de: Groundedness, Faithfulness, Context relevance, Answer relevance.
  • Experiencia trabajando con sistemas no deterministas.
  • Deseable: Experiencia en plataformas de IA conversacional.
  • Conocimiento en pipelines RAG.
  • Experiencia con APIs de modelos generativos.
  • Manejo de herramientas de observabilidad y monitoreo.
  • Conocimiento en MLOps o LLMOps.
  • Experiencia en ambientes cloud (GCP, AWS o Azure).

Benefits

Comp & perks
  • Modalidad: 100% Remoto
  • Excelente ambiente y laboral
  • Oportunidad de crecimiento y participación en proyectos innovadores.

ATS Keywords

✓ Tailor your resume
Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard Skills & Tools
PythonQA automationevaluación de sistemas de IAautomatización de pruebasvalidacionesevaluación de promptsbenchmarking de modelostesting de IA generativaMLOpsLLMOps
Soft Skills
colaboraciónanálisis de resultadosmejoras continuas