
Senior Site Reliability Engineer – Data Platform
Porto a Porto
full-time
Posted on:
Location Type: Hybrid
Location: São Paulo • Brazil
Visit company websiteExplore more
About the role
- Engenharia de Confiabilidade: Definir e monitorar SLIs e SLOs críticos para a plataforma de dados (latência de jobs, disponibilidade do workspace, integridade do Delta Lake).
- Observabilidade Avançada: Implementar telemetria ponta a ponta (logs, métricas e traces) para antecipar falhas antes que impactem o negócio.
- Automação e IaC: Eliminar o trabalho manual através de automações, garantindo que a infraestrutura do Databricks seja tratada como código.
- Gestão de Incidentes e Post-mortems: Liderar o diagnóstico de incidentes complexos em ambientes Spark/Azure e conduzir análises de causa raiz (Blameless Post-mortems) para evitar recorrências.
- Eficiência de Custos (FinOps): Otimizar o consumo de recursos computacionais (clusters Databricks) e armazenamento na Azure sem sacrificar a performance.
- Cultura de Self-Service: Desenvolver ferramentas e abstrações que permitam aos Engenheiros de Dados operarem com autonomia e segurança.
- Capacity Planning: Realizar a gestão de capacidade da plataforma para suportar o crescimento exponencial de volumetria de dados e modelos de IA/ML.
Requirements
- Experiência em SRE ou DevOps: Vivência sólida garantindo a disponibilidade de sistemas distribuídos de alta escala.
- Domínio em Ecossistema de Dados: Experiência obrigatória (2+ anos) com Azure e Databricks (especialmente administração de workspaces e otimização de clusters).
- Programação e Automação: Domínio de Python para criação de ferramentas de automação e scripts.
- Troubleshooting de Big Data: Conhecimento profundo em depuração de jobs Apache Spark, análise de gargalos em Delta Lake e redes em nuvem.
- Observabilidade: Experiência com ferramentas como Azure Monitor, Grafana, Prometheus ou Datadog para criação de alertas inteligentes.
- Vivência comprovada em Azure e Databricks.
- Experiência com CI/CD para Data Engineering (DataOps).
- Familiaridade com governança de dados e segurança (Unity Catalog).
Benefits
- Vale Alimentação e Refeição Flexíveis;
- Plano de Saúde;
- Plano Odontológico;
- Wellhub e TotalPass;
- Academia Bio Ritmo exclusiva para Colaboradores: no Complexo Matriz;
- Participação nos Lucros - PLR;
- Programa de Ações: Porto em Ação: complementar à PLR até 2025;
- Quadras de Areia e Poliesportiva: no Complexo Matriz;
- Vale-Transporte;
- Serviços de Transporte de Vans: disponibilizadas nas principais estações de acesso à Porto (Luz, Barra Funda, Santa Cecília e Júlio Prestes);
- Licença Parental Estendida: até 40 dias para todas as configurações familiares;
- Licença Maternidade Estendida de 6 meses;
- Ambulatório Médico com Especialidades: no Complexo Matriz e Barra Funda;
- Auxílio creche ou babá;
- Seguro de Vida;
- Previdência Privada - PortoPrev;
- Desconto em Produtos e Serviços;
- Bolsa de estudos: Reembolso para graduação, pós ou MBA;
- Corridas mensais: subsídio para as principais corridas de ruas de São Paulo;
- Reembolso para idiomas (inglês ou espanhol);
- Teatro Porto: sessões exclusivas para Colaboradores;
- Biblioteca;
- Sala de descanso: no completo Matriz;
- Salão de jogos: no complexo Matriz;
- Serviços de massagem e podologia: no completo Matriz;
- Local de trabalho: Campos Elíseos - SP
Applicant Tracking System Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard Skills & Tools
Engenharia de ConfiabilidadeSLIsSLOstelemetriaautomaçãoIaCdiagnóstico de incidentesanálises de causa raizotimização de recursos computacionaisprogramação em Python
Soft Skills
liderançaautonomiagestão de capacidade