SRE Senior

Banco ABC Brasil

SRE Senior focusing on multi-cloud incident resolution and system reliability. Engage with financial market specialists to contribute to projects at Banco ABC Brasil.

Posted 5/19/2026full-timeSão Paulo • 🇧🇷 BrazilMid-LevelSeniorWebsite

Tech Stack

Tools & technologies

AWSCloudGrafanaKubernetesNFSPrometheusPythonTerraform

About the role

Key responsibilities & impact

Gestão de Capacidade, Performance e Disponibilidade
Planejar e ajustar continuamente a capacidade de recursos computacionais (compute, memoria, storage e rede) em AWS e on-premises, antecipando gargalos e evitando desperdício.
Monitorar, analisar e otimizar a performance de serviços e infraestrutura, identificando degradações antes que impactem usuários finais (uso das metodologias USE e RED).
Definir, implementar e manter SLOs, SLAs e error budgets, garantindo alta disponibilidade por meio de automações e runbooks bem documentados.
Construir e manter controles automatizados que assegurem os KPIs de confiabilidade acordados com o negócio, com rastreabilidade e auditabilidade.
Criar e evoluir automações de operação — scaling reativo e preditivo, remediação automática, provisionamento zero-touch — reduzindo toil e aumentando resiliência.
Gerenciar e otimizar clusters EKS: provisionamento, escalabilidade (HPA / VPA / Cluster Autoscaler / Karpenter), redes, storage e troubleshooting de workloads em produção.
Garantir infraestrutura versionada, reprodutivel e auditavel.
Realizar chaos engineering para validar resiliencia de sistemas (simulacao de falhas controladas, game days).
Manter stacks completas de observabilidade: métricas, logs, tracing distribuído e alertas orientados a SLOs.
Construir dashboards e alertas com Prometheus, Grafana e CloudWatch, com visibilidade de ponta a ponta sobre saúde da infraestrutura.
Aplicar conceitos e práticas de otimização de custos em cloud: rightsizing, reserved instances, savings plans e spot instances.
Produzir relatórios e recomendações de redução de custos em AWS, utilizando AWS Cost Explorer, Kubecost ou equivalente.
Implementar tagging e chargeback para visibilidade de custo por serviço, squad ou produto, promovendo cultura FinOps no time.
Atuar em escala de plantão (on-call), liderar resolução de incidentes de alta severidade e conduzir post-mortems sem cultura de culpa com action items concretos.
Apoiar SREs, disseminando práticas de confiabilidade, observabilidade e cultura de engenharia de operações.
Atuar como referência técnica para decisões de arquitetura de infraestrutura relacionadas a confiabilidade, capacidade e performance.
Atuar com revisões técnicas de infraestrrutura com o time de engenharia cloud.

Requirements

What you’ll need

Experiencia solida em gestão de capacidade e performance em ambientes híbridos (cloud + on-premises) com responsabilidade comprovada por SLOs e KPIs.
Domínio avançado de AWS: compute, storage, rede, IAM e serviços gerenciados em escala de producao.
Kubernetes/EKS em produção: provisionamento, troubleshooting, scaling e storage com experiencia mínima de 4 anos.
Terraform em nível produção: módulos, remote state, workspaces e reconciliacao de drift.
Observabilidade de ponta a ponta: metricas, logs, tracing, alertas orientados a SLOs e criação de dashboards operacionais.
Storage hibrido: domínio de tipos EBS, EFS, FSx em cloud e SAN/NAS/NFS on-premises, incluindo planejamento de IOPS e capacidade.
Python ou Bash para automações e ferramentas internas.
O candidato deve possuir ao menos uma certificação nas frentes de SRE e Cloud AWS. A ausência total de certificações em ambas as frentes, sem portfolio técnico solido comprovado, e fator eliminatório. A AWS Solutions Architect (Associate ou Professional) e o diferencial de maior peso dentro da frente cloud.

Benefits

Comp & perks

Assistência Médica;
Assistência Odontológica Omint;
Seguro de Vida;
PLR;
PPR;
ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
Vale Refeição;
Vale Alimentação;
Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
Auxílio Creche/Babá;
Day Off anual;
Auxílio Infraestrutura para Home Office;
TotalPass;

ATS Keywords

✓ Tailor your resume

Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard Skills & Tools

gestão de capacidadeperformancedisponibilidadeAWSKubernetesEKSTerraformPythonBashobservabilidade

Soft Skills

liderançaresolução de incidentescomunicaçãotrabalho em equipecultura de engenharia de operações

Certifications

AWS Solutions ArchitectSRE certification