Operando um Agente IA 24/7: Lições de 90 Dias de Operações Autônomas

Implantamos um agente OpenClaw em janeiro e o deixamos rodar. Não como experimento — como sistema de produção lidando com trabalho real. Produção de conteúdo, gestão de email, monitoramento de sistema, agendamento e pesquisa.

Três meses depois, aqui está o que aprendemos. Algumas coisas confirmam o que o material de marketing promete. Outras não.

A Configuração

Servidor: Hetzner CX31 (4 vCPU, 8GB RAM), Ubuntu 22.04
Agente: OpenClaw com Claude Sonnet como modelo principal, Haiku para tarefas simples, Opus para análises complexas
Canais: Telegram (principal), com cron jobs para tarefas automatizadas
Skills instaladas: web search, Google Workspace, weather, healthcheck, humanizer
Cron jobs: 12 tarefas recorrentes, desde briefings matinais até auditorias semanais de segurança

Mês 1: Encontrando os Limites

As primeiras duas semanas foram principalmente sobre descobrir o que o agente interpretava de forma diferente do que esperávamos.

Exemplo: Dissemos ao agente para "verificar email e sinalizar qualquer coisa importante." Ele sinalizou tudo de clientes como importante, o que estava tecnicamente correto mas não útil. Tivemos que definir "importante" com especificidades — emails não lidos de uma lista nomeada de contatos-chave, emails contendo palavras como "fatura," "prazo," ou "problema," e qualquer email marcado com alta prioridade pelo remetente.

Especificidade fez toda a diferença. Instruções vagas produziram comportamento correto-mas-inútil. Instruções precisas produziram output genuinamente útil.

O que quebrou: O token OAuth do Gmail expirou após 7 dias e ninguém notou por 3 dias. O agente estava silenciosamente pulando verificações de email porque a autenticação falhou. Corrigimos isso adicionando uma verificação de saúde que testa especificamente a conectividade do Gmail e alerta sobre falha.

Custo no mês 1: $112 (principalmente por usar demais o Opus durante configuração e testes).

Mês 2: Construindo Rotinas

Na semana 5, o ritmo operacional se estabeleceu. O agente tinha 12 cron jobs rodando no horário, uma fila de workstate bem definida e zonas de autonomia claras. A intervenção humana caiu para talvez 15 minutos por dia — revisando emails sinalizados, aprovando conteúdo e lidando com casos excepcionais ocasionais.

O que nos surpreendeu: O agente começou a detectar coisas que perdemos. Um disco do servidor enchendo às 3h da manhã. Um email de cliente que chegou às 23h mencionando um prazo que esquecemos. Um link quebrado em nosso conteúdo publicado que a auditoria semanal encontrou. A cobertura 24/7 não é apenas uma conveniência — detecta problemas sensíveis ao tempo que passam despercebidos com monitoramento apenas humano.

O pipeline de conteúdo se estabilizou. Posts passaram por pesquisa → rascunho → humanização → revisão → publicação com intervenção mínima. A qualidade foi consistente. Nem todo post foi brilhante, mas nenhum foi constrangedor. Cerca de 1 em 8 posts precisaram de edição manual além do que o agente de revisão detectou — geralmente um exemplo de código ligeiramente incorreto ou uma afirmação que precisava de mais nuance.

O que quebrou: Um cron job que verificava o HackerNews por artigos relevantes travou em um loop quando a API estava temporariamente fora do ar. Ficou tentando novamente a cada 30 segundos por 4 horas, queimando tokens de API em requisições falhas. Adicionamos limites de timeout e backoff exponencial depois disso.

Custo no mês 2: $87 (após otimizar seleção de modelo por tarefa).

Mês 3: Otimização

Com o básico rodando suavemente, focamos em eficiência.

Otimização de modelo foi a maior redução de custo. Mapeamos cada tarefa para o modelo mais barato que pudesse lidar com ela:

| Tarefa | Antes | Depois | Impacto no Custo | |--------|-------|--------|------------------| | Categorização de email | Sonnet | Haiku | -75% por tarefa | | Briefing matinal | Sonnet | Sonnet | Sem mudança (precisa de qualidade) | | Escrita de rascunho de blog | Sonnet | Sonnet | Sem mudança | | Auditoria de segurança | Opus | Sonnet | -80% por tarefa | | Organização de arquivos | Sonnet | Haiku | -75% por tarefa |

Auditorias de segurança no Sonnet ao invés do Opus? Funciona bem. A auditoria é principalmente verificar valores de configuração contra práticas conhecidas — não precisa de raciocínio profundo. A única tarefa que mantivemos no Opus: revisar conteúdo final antes da publicação, onde o modelo detecta problemas sutis de qualidade que o Sonnet perde.

Otimização de prompt cortou o uso de tokens em cerca de 30%. Reduzimos o SOUL.md de 3.000 tokens para 1.200 tokens removendo instruções redundantes e movendo material de referência para arquivos separados que carregam apenas quando necessário. Como o prompt do sistema é incluído em toda chamada de API, menor = mais barato.

O que quebrou: Um sub-agente gerado por um cron job do pipeline de conteúdo produziu um post de blog que citava com confiança um estudo que não existia. O agente de revisão perdeu porque o formato da citação parecia correto. Adicionamos um passo de verificação que especificamente checa se URLs citadas são reais e acessíveis.

Custo no mês 3: $74.

Padrões Operacionais Que Emergiram

O Efeito Composto da Documentação

Quanto mais documentamos nos arquivos do workspace do agente, melhor ele performou. No dia 1, era um assistente de propósito geral. No dia 90, havia acumulado tanto contexto — formatação preferida, erros comuns a evitar, contatos-chave, detalhes de projeto, preferências de agendamento — que operava mais como um funcionário treinado do que uma ferramenta.

Esta é a vantagem não óbvia da memória baseada em arquivos. Cada nota, cada correção, cada preferência se compõe em um agente cada vez mais capaz.

Perda de Contexto É o Principal Modo de Falha

Toda vez que a sessão do agente reinicia (o que acontece após uma certa quantidade de conversa), ele precisa recarregar contexto dos arquivos. Se os arquivos não capturam bem o estado atual, o agente tropeça.

Nossa solução: um arquivo workstate.md que o agente atualiza constantemente — o que está em progresso, o que está feito, o que está bloqueado, o que vem a seguir. No restart da sessão, ler este arquivo traz o agente de volta em segundos.

Supervisão Humana Escala Para Baixo, Não Para Longe

Semana 1: revisamos tudo. Semana 4: revisamos apenas itens sinalizados. Semana 12: revisamos resumos semanais mais qualquer coisa que o agente escalou.

Você não chega a supervisão zero. Você chega a supervisão eficiente. O agente lida com volume; você lida com decisões de julgamento.

Cron Jobs São a Espinha Dorsal

Operação autônoma não é sobre um agente sentado lá pensando o dia todo. É sobre tarefas agendadas que disparam confiavelmente. Nossos 12 cron jobs lidam com cerca de 85% do trabalho diário do agente. Os 15% restantes são requisições ad-hoc através do Telegram.

O cronograma de cron é a espinha dorsal operacional. Quando um cron job quebra, essa capacidade fica silenciosa até alguém notar. Monitorar a saúde dos cron é tão importante quanto monitorar a saúde do servidor.

Métricas Após 90 Dias

| Métrica | Valor | |---------|-------| | Total de posts de blog publicados | 197 | | Emails categorizados | ~5.400 | | Rascunhos de email gerados | ~480 | | Auditorias de segurança completadas | 12 | | Execuções de cron job | ~3.200 | | Custo médio diário de API | $2,80 | | Downtime não planejado | ~6 horas total (3 incidentes) | | Posts requerendo edição manual | 24 (~12%) | | Alertas urgentes falsos | 7 | | Problemas genuínos perdidos | 2 (ambos detectados em 24h) |

O Que Faríamos Diferente

Configurar monitoramento desde o dia 1. Adicionamos verificações de saúde e alertas na semana 3 após o token do Gmail expirar silenciosamente. Deveria estar lá desde o início.

Escrever o AGENTS.md mais cuidadosamente no início. Reescrevemos quatro vezes no primeiro mês conforme descobrimos casos extremos. Gastar mais tempo na definição inicial teria poupado retrabalho.

Começar com menos cron jobs. Implantamos 8 cron jobs na primeira semana. Três deles precisaram de ajuste significativo. Melhor começar com 3-4 e adicionar incrementalmente.

Orçar para verificação de alucinação. Agentes IA ocasionalmente inventarão fatos, citarão fontes inexistentes ou interpretarão dados mal. Construa verificação no pipeline, não como reflexão posterior.

Resultado Final

Executar um agente IA em produção por 90 dias custou cerca de $275 em taxas de API total mais $45 em hospedagem. Lidou com trabalho que teria levado um humano 150-200 horas. O equivalente por hora: cerca de $1,60/hora.

A qualidade não é equivalente a humano em todas as tarefas. Mas para throughput operacional — as coisas chatas, repetitivas, sensíveis ao tempo que consomem seu dia — é difícil superar a economia.

O insight chave: operações de IA autônomas funcionam quando você investe em documentação, monitoramento e construção gradual de confiança. Pule qualquer um desses três, e você tem um chatbot caro que ocasionalmente quebra.

Pronto para começar? Nosso guia de configuração VPS te deixa implantado em 25 minutos. Então configure seus primeiros cron jobs e deixe o efeito composto começar.