🎯 Missão do Cargo
Garantir a confiabilidade, escalabilidade e eficiência dos bancos de dados da Ploomes aplicando princípios SRE à camada de dados, combinando expertise em engenharia de confiabilidade com profundo conhecimento de banco de dados.
📋 Responsabilidades e Entregáveis
-
Definição e Acompanhamento de SLOs
Estabelecer SLOs para os bancos de dados críticos e monitorar continuamente o cumprimento via error budgets.
SLOs definidos por BD; dashboards de confiabilidade ativos; error budgets gerenciados e visíveis.
-
Automação para Redução de Toil
Identificar e eliminar trabalho operacional repetitivo (toil) por meio de automação sistemática.
Backlog de toil mapeado; automações em produção; time com mais tempo para trabalho de engenharia.
-
Confiabilidade e Resiliência
Projetar e implementar mecanismos que aumentem a resiliência dos BDs a falhas; aplicar chaos engineering.
BDs tolerantes a falhas; RPO/RTO atingidos; testes de resiliência realizados periodicamente.
-
Gestão de Capacidade e Performance Preditiva
Monitorar tendências de crescimento e antecipar gargalos antes que afetem o produto.
Alertas antecipados; crescimento planejado; usuários sem impacto surpresa.
-
Observabilidade de Banco de Dados
Implementar e manter stack completa de observabilidade: métricas, logs, traces e alertas acionáveis.
Visibilidade total do comportamento dos BDs; alertas acionáveis; diagnóstico rápido em incidentes.
-
Colaboração com Engenharia
Trabalhar junto aos times de desenvolvimento e infraestrutura para garantir que as aplicações usem os BDs de forma eficiente e confiável.
Reviews de modelagem e acesso a BD; boas práticas disseminadas; incidentes prevenidos na origem.
-
🤖 Uso Estratégico de IA
Análise de tendências de performance; geração de runbooks e playbooks; diagnóstico de incidentes; automação de tarefas operacionais; documentação de arquitetura de confiabilidade.
🔧 Conhecimento Técnico
-
Princípios SRE
SLIs, SLOs, Error Budgets, Toil Elimination; aplica a metodologia SRE à camada de banco de dados com maturidade.
-
Conhecimento Avançado de BD
Replicação, particionamento, performance tuning; domina pelo menos um BD relacional em profundidade e conhece trade-offs de outros.
-
Automação com Python e IaC
Escreve ferramentas de automação e gerencia infraestrutura de BD como código; scripts versionados e testados.
-
Observabilidade (Datadog / Prometheus / OpenTelemetry)
Configura dashboards, alertas e traces para BDs; constrói visibilidade de ponta a ponta na camada de dados.
-
Cloud e Managed DB Services
Gerencia BDs em cloud com foco em confiabilidade e custo-eficiência; conhece particularidades de serviços gerenciados.
💡 Comportamentos na Prática