A RPE tem como objetivo viabilizar o amplo crescimento dos negócios varejistas e da economia nacional por meio de soluções ágeis, robustas, seguras e integradas a todo ecossistema de serviços financeiros.

Com mais de oitenta profissionais especialistas em tecnologia e meios de pagamento, atendemos mais de quarenta negócios varejistas, desenvolvendo soluções voltadas para a democratização do crédito nos pontos de vendas.

Se você está pronto para crescer e voar com a gente, esta é sua chance.

Estamos em busca de um(a) Tech Leader de SRE que será responsável por gerenciar tecnicamente o time de Engenharia de Confiabilidade, garantir a excelência operacional dos nossos sistemas em produção e impulsionar a cultura de automação, observabilidade e resiliência em toda a empresa. Você será o pilar técnico do time, atuando como mentor(a), parceiro(a) estratégico dos times de produto, desenvolvimento e infraestrutura, liderando iniciativas que elevem a confiabilidade dos serviços da nossa plataforma financeira

Para essa vaga é necessário:

Sólido conhecimento em observabilidade (Prometheus, Grafana, Datadog, OpenTelemetry, Zabbix e ELK).
Experiência com CI/CD, automação de infraestrutura (Terraform, Ansible, etc.).
Conhecimentos avançados em Linux, redes, containers (Docker, Kubernetes).
Programação e scripting: Python, Go, Shell ou equivalente.
Experiência com arquitetura de sistemas escaláveis e distribuídos.
Conhecimento prático de SRE Principles, DORA Metrics, Error Budgets e SLOs.
Vivência com Cloud pública (AWS).

No dia-a-dia você vai:

Liderar tecnicamente a equipe de SRE, garantindo boas práticas de engenharia de confiabilidade.
Ser responsável pela definição, monitoramento e evolução de SLIs, SLOs e Error Budgets.
Trabalhar lado a lado com Devs e Ops para automatizar processos críticos, com foco na redução de toil.
Construir e evoluir nossa stack de observabilidade: monitoramento, logging estruturado e tracing distribuído.
Garantir a execução de post-mortems, RCA e planos de ação após incidentes.
Implementar estratégias de Chaos Engineering e Testes de Resiliência.
Atuar no design de sistemas escaláveis e tolerantes a falhas.
Apoiar na capacitação técnica do time e disseminação da cultura SRE pela empresa.
Ser referência em decisões técnicas que afetam a confiabilidade de sistemas core.

Diferenciais:

Contribuições para comunidades de DevOps/SRE/Open Source.
Certificações como: AWS DevOps, AWS Architect, CKAD, Terraform Associate.
Experiência com ferramentas de Chaos Engineering (ex: Litmus, Gremlin, Chaos Monkey).

Regime de contratação: PJ

Modelo de trabalho: Remoto

Find Your Dream Job

Date Posted

Job Type

Technology

Work Setting

Salary Range

Experience Level

4330 matching jobs

Associate DevOps Engineer(Kubernetes, CI/CD, container orchestration)

DevOps Engineer - AWS

Devops Junior

Site Reliability Engineer

Site Reliability Engineer

Director Site Reliability Engineering

DevOps Engineer

DevSecOps Engineer

Site Reliability Engineer

Azure DevOps Engineer

[RPE] Tech Lead - SRE

New SRE Jobs

For SRE Professionals

For Employers

Company