A RPE tem como objetivo viabilizar o amplo crescimento dos negócios varejistas e da economia nacional por meio de soluções ágeis, robustas, seguras e integradas a todo ecossistema de serviços financeiros.
Com mais de oitenta profissionais especialistas em tecnologia e meios de pagamento, atendemos mais de quarenta negócios varejistas, desenvolvendo soluções voltadas para a democratização do crédito nos pontos de vendas.
Se você está pronto para crescer e voar com a gente, esta é sua chance.
Estamos em busca de um(a)
Tech Leader de SRE que será responsável por
gerenciar tecnicamente o time de Engenharia de Confiabilidade, garantir a excelência operacional dos nossos sistemas em produção e impulsionar a cultura de automação, observabilidade e resiliência em toda a empresa. Você será o pilar técnico do time, atuando como mentor(a), parceiro(a) estratégico dos times de produto, desenvolvimento e infraestrutura, liderando iniciativas que elevem a confiabilidade dos serviços da nossa plataforma financeira
Para essa vaga é necessário:
- Sólido conhecimento em observabilidade (Prometheus, Grafana, Datadog, OpenTelemetry, Zabbix e ELK).
- Experiência com CI/CD, automação de infraestrutura (Terraform, Ansible, etc.).
- Conhecimentos avançados em Linux, redes, containers (Docker, Kubernetes).
- Programação e scripting: Python, Go, Shell ou equivalente.
- Experiência com arquitetura de sistemas escaláveis e distribuídos.
- Conhecimento prático de SRE Principles, DORA Metrics, Error Budgets e SLOs.
- Vivência com Cloud pública (AWS).
No dia-a-dia você vai:
- Liderar tecnicamente a equipe de SRE, garantindo boas práticas de engenharia de confiabilidade.
- Ser responsável pela definição, monitoramento e evolução de SLIs, SLOs e Error Budgets.
- Trabalhar lado a lado com Devs e Ops para automatizar processos críticos, com foco na redução de toil.
- Construir e evoluir nossa stack de observabilidade: monitoramento, logging estruturado e tracing distribuído.
- Garantir a execução de post-mortems, RCA e planos de ação após incidentes.
- Implementar estratégias de Chaos Engineering e Testes de Resiliência.
- Atuar no design de sistemas escaláveis e tolerantes a falhas.
- Apoiar na capacitação técnica do time e disseminação da cultura SRE pela empresa.
- Ser referência em decisões técnicas que afetam a confiabilidade de sistemas core.
Diferenciais:
- Contribuições para comunidades de DevOps/SRE/Open Source.
- Certificações como: AWS DevOps, AWS Architect, CKAD, Terraform Associate.
- Experiência com ferramentas de Chaos Engineering (ex: Litmus, Gremlin, Chaos Monkey).
Regime de contratação: PJ
Modelo de trabalho: Remoto