Context engineering: a skill fundamental do AI engineer no Brasil em 2026
Prompt engineer sumiu das vagas BR; context engineering monta o que o LLM vê. system_prompt.md versionado, ACL e métricas no case Núcleo Desk.
Em maio de 2026, Lucas Souza publicou no Blog Beer And Code uma leitura do mercado brasileiro com base em 200 vagas de AI engineer (LinkedIn, Gupy e Indeed, 1 a 20/mai/2026): context engineering, evals e harness sobem; prompt engineering isolado perde peso (artigo de 23/05). Dados agregados Indeed/LinkedIn citados pelo levantamento indicam queda de ~73% em postagens com título “Prompt Engineer” entre 2023 e abril/2026 (SolidAITech). A Anthropic formalizou context engineering como evolução do prompt engineering: curar o conjunto ótimo de tokens na inferência, não só polir a frase do usuário.
No LinkedIn BR, anúncios pedem quem saiba montar RAG (Retrieval-Augmented Generation, geração aumentada por recuperação), filtrar contexto por ACL (Access Control List, lista de controle de acesso) e medir se o modelo usou o trecho certo. Não é moda de nomenclatura: é a diferença entre um chat que inventa política de RH e um portal interno que cita o documento que o estagiário tem permissão de ver.
Se você leu o mapa LLM → RAG → agentes → MCP, já sabe onde cada camada encaixa. Hoje a pergunta é mais íntima: o que exatamente entra na janela de contexto antes do modelo gerar a primeira palavra? Quem responde isso com código e métrica é context engineer. Quem só polia frase no ChatGPT era prompt engineer. O mercado brasileiro está trocando o segundo pelo primeiro.
O problema no Núcleo Desk
No Núcleo Desk, portal de suporte interno de um SaaS B2B com cerca de 800 funcionários, três perguntas aparecem todo dia:
- “Quantos dias de férias posso tirar este ano?”
- “Como faço deploy de um serviço em staging?”
- “Onde vejo a política de reembolso de despesas?”
Parece FAQ. O inferno está no contexto:
| Papel | ID | Documentos que podem entrar no RAG |
|---|---|---|
| Funcionário | employee |
politica-ferias.md, faq-billing.md (RH geral) |
| Admin RH | hr_admin |
Políticas RH completas, exceto salários de terceiros |
| SRE | sre |
runbook-deploy.md (classificação restricted) |
| Estagiário | intern |
Subconjunto de employee, sem faixas salariais |
Um bot genérico treinado na internet responde férias com CLT genérica e inventa passo de deploy. Um portal sem context engineering manda o runbook de produção para quem deveria ver só FAQ de billing. Os dois cenários viram incidente: trabalhista no primeiro, segurança no segundo.
A tese deste episódio: context engineering é desenhar, versionar e auditar tudo que o LLM (Large Language Model, modelo de linguagem) recebe, não só o parágrafo “ você é um assistente útil”.
Context engineering vs prompt engineer
Prompt engineer (título em declínio no BR) otimizava frases isoladas: tom, few-shot, “pense passo a passo”. Funciona em demo. Em produção B2B, o prompt fixo é uma fatia pequena do contexto.
Context engineering cobre o pipeline inteiro:
- System prompt versionado em arquivo no repositório (Núcleo Desk:
prompts/system_prompt.md, nome escolhido pelo time). - Instruções por papel derivadas da ACL.
- Trechos RAG recuperados com filtro
dept+classification. - Resultado de tools (futuro: Jira, Confluence via MCP, Model Context Protocol).
- Histórico truncado com critério (últimos N turnos, resumo, ou descarte).
- Metadados de auditoria (ids de chunk, score, papel ativo).
No mundo real, quem contrata engenheiro de IA quer ver o diagrama acima implementado, não print de conversa no playground.
O system_prompt.md do Núcleo Desk
O system_prompt.md concentra o que o modelo precisa saber antes da primeira pergunta do usuário: persona, regras de segurança, limites de ACL e contrato de resposta (como citar, quando dizer “não encontrei”). O conteúdo fica em Markdown, com seções nomeadas.
Versionar esse arquivo em Git, com PR, diff e tag por release, é prática recomendada em produção. O nome do arquivo pode ser definido pelo time; no Núcleo Desk usamos prompts/system_prompt.md (apps/portal/prompts/system_prompt.md no monorepo previsto) porque o basename deixa claro o papel do artefato.
Trate instrução como código: testes no CI validam que placeholders como {{user_role}} e {{rag_chunks}} são injetados corretamente antes da inferência.
Template prompts/system_prompt.md (Núcleo Desk v0.2)
Trecho ilustrativo; papéis estendem via template Handlebars/{{…}} na hora do build ou da request:
# Nucleo Desk: system prompt v0.2
Voce e o assistente interno do Nucleo Desk (People + IT).
## Regras inviolaveis
- Responda apenas com base nos documentos fornecidos em {{rag_chunks}}.
- Se a resposta nao estiver na base, diga explicitamente: "Nao encontrei na base interna."
- Cite sempre o titulo do documento fonte.
- Nunca revele conteudo classificado acima do papel {{user_role}}.
- Nunca invente valores de salario, beneficio ou passo de infra nao documentado.
## Papel ativo: {{user_role}}
{{role_instructions}}
## Documentos recuperados
{{rag_chunks}}
## Formato
- Portugues (Brasil), tom direto.
- Listas curtas; runbooks em passos numerados.
- Ao final, inclua bloco JSON de auditoria (nao mostrar ao usuario final na UI):
{"sources": [...], "role": "...", "confidence": "high|medium|low"}
Instruções por papel (role_instructions)
| Papel | Bloco injetado em {{role_instructions}} |
|---|---|
employee |
Pode orientar sobre ferias e billing interno. Nao acessar runbooks de infra. |
hr_admin |
Pode detalhar politicas RH completas. Nao exibir salarios de outros funcionarios. |
sre |
Pode detalhar runbooks e procedimentos restritos. Escalar deploy em producao para HITL (human-in-the-loop, humano no circuito). |
intern |
Mesmo escopo de employee, mas omitir qualquer mencao a faixa salarial ou compensacao. |
O assistente não muda de personalidade a cada pergunta; muda o subconjunto de verdade que pode usar. Isso é ACL aplicada antes da inferência, não depois da resposta pronta.
O que cada papel enxerga na prática
Fixtures da trilha (Markdown em PT, metadados para ACL futuro):
| Arquivo | dept |
classification |
Visível para |
|---|---|---|---|
politica-ferias.md |
hr |
internal |
employee, hr_admin, intern (sem salários) |
faq-billing.md |
product |
internal |
todos exceto conteúdo fora do escopo |
runbook-deploy.md |
sre |
restricted |
sre apenas |
Cenário: pergunta “Como faço deploy de um serviço em staging?”
employee: RAG não retornarunbook-deploy.md. Contexto traz só FAQs. Resposta esperada: “Não encontrei na base interna” + link para abrir chamado IT.sre: chunk do runbook entra em{{rag_chunks}}. Resposta cita passos reais, com classificaçãorestrictedregistrada na auditoria.intern: igual employee; se alguém indexou salário no chunk de férias por erro, regra do system prompt (arquivoprompts/system_prompt.md) manda omitir.
Sem montagem explícita, o modelo preenche lacuna com alecrim dourado. Context engineering existe para deixar a lacuna visível.
Context rot e ordem de montagem
Context rot é a degradação de qualidade quando a janela enche de ruído: histórico longo demais, chunks irrelevantes, tool output gigante, system prompt duplicado em todo turno. A Anthropic descreve o fenômeno no artigo Effective context engineering for AI agents: contexto é recurso finito com retorno marginal decrescente; cada token irrelevante compete pela mesma atenção. O tutorial Engenharia de contexto vence prompt engineering (Beer And Code, 08/05/2026) resume Lost in the Middle (Liu et al., 2023) e Context Rot (Chroma, 2025): performance não escala linearmente com tamanho do input, mesmo em modelos de janela longa. A tabela comparativa do mesmo artigo traz números ilustrativos (médias de pipeline próprio do autor), não benchmark independente. Aqui citamos só a direção qualitativa do efeito.
Ordem que funciona no Núcleo Desk (do mais estável ao mais volátil):
prompts/system_prompt.mdou equivalente (cacheável por versão + papel)- Instruções de papel
- Chunks RAG ordenados por score, cap por token budget
- Tool results (somente o necessário)
- Histórico recente (truncar ou resumir)
Regra prática: se o budget é 8k tokens e os chunks consomem 6k, sobra pouco para raciocínio. Melhor menos chunk com score alto do que indexar o Confluence inteiro. Chunking fino entra no próximo episódio; aqui o ponto é priorizar o que entra, não empilhar tudo.
Custo ilustrativo BR: reenviar system prompt de 2k tokens em 500 sessões/dia multiplica a conta de API. Cache de system + deduplicação de chunks no mesmo ticket pode economizar dezenas a centenas de reais por mês em escala modesta. O vilão não é só o preço por token; é contexto mal dimensionado.
Métricas que o recrutador pergunta
Você não precisa decorar buzzword. Precisa mostrar número em entrevista:
Context utilization ratio
Proporção de tokens do contexto final que o modelo efetivamente citou ou seguiu na resposta. O tutorial de context engineering do Beer And Code (30/05/2026) descreve como métrica que recrutador pergunta em entrevista técnica de AI engineer: times maduros miram ratio ≥ 0,4; pipelines descuidados rodam em ~0,1 e queimam budget de token sem ganho de qualidade. Medição manual no início (planilha + eval); automatizada quando a trilha chegar em evals com promptfoo.
Exemplo ilustrativo:
ratio = tokens_citados_ou_alinhados / tokens_totais_contexto
Entrevista: “Como você sabe que o RAG ajudou?” Mostre ratio subindo quando filtra chunk ruim e cai quando indexa lixo.
Outras métricas úteis no portfólio
| Métrica | O que prova |
|---|---|
| Faithfulness | Resposta ancorada no chunk, não inventada |
| ACL violation rate | Zero é o alvo; qualquer vazamento é P0 |
| Tokens por ticket | Custo operacional em R$ |
| Empty retrieval rate | Quantas vezes “não encontrei” é correto vs bug |
Vaga de AI Engineer no BR em 2026: menos “crie 10 prompts criativos”, mais “desenhe o pipeline de contexto e prove com eval”.
Para founders
- Risco de negócio: chatbot genérico sem contexto do negócio homogeniza resposta e ignora ACL. Funcionário recebe instrução de deploy; estagiário vê menção salarial vazada. Passivo trabalhista e LGPD (Lei Geral de Proteção de Dados) batendo na porta.
- Custo típico de errar: R$ 8 mil a R$ 40 mil em integração “plug-and-play” que não indexa seus PDFs com metadado, não versiona system prompt e não audita chunk usado. Barato no cartão, caro no incidente.
- Quando o caminho genérico não basta: se o diferencial está em política interna, runbook ou processo que muda todo mês; se auditoria exige “qual documento sustentou esta resposta”; se você já comprou SaaS e a taxa de “não sei” ou alucinação assusta o jurídico.
Para devs
O que colocar no GitHub e no LinkedIn depois deste episódio:
- System prompt em Git (
prompts/system_prompt.mdno Núcleo Desk; ouAGENTS.md/CLAUDE.mdse o case for agente de código) com variantes poruser_rolee testes Vitest que validam injeção de template. - Diagrama de montagem de contexto (Mermaid ou PNG) antes do LLM.
- Tabela ACL × fixtures mostrando filtro na recuperação, não só no front.
- Planilha ou script de eval com context utilization ratio em 10 perguntas golden (mesmo manual).
- README em PT explicando context rot e por que você trunca histórico.
Frase para headline: “Context engineering para portal B2B com ACL e RAG governado” bate mais forte que “Prompt engineer ChatGPT”.
Próximo episódio
Esta é a Parte 2 da trilha Núcleo Desk. Episódio anterior: LLM, RAG, agentes e MCP: o mapa que o mercado brasileiro precisa em 2026.
No próximo artigo: chunking e embeddings em documentos português, custo de indexação em R$ e metadados dept/classification que alimentam o filtro ACL que vimos hoje.
Estou aprendendo a colocar IA em produção e documentando o case Núcleo Desk em público. Me acompanhe no LinkedIn para seguir a trilha, trocar ideias e discutir o que estou construindo.
Bibliografia
Vagas BR e context engineering vs prompt engineer
- AI engineer no 2º semestre de 2026: o que o recrutador vai pedir (Lucas Souza, 23/05/2026): leitura de 200 vagas BR (LinkedIn, Indeed, Gupy, 1 a 20/mai/2026). Quatro skills que sobem: context engineering, evals, harness, compliance. Três que perdem peso: fine-tuning open-source como skill central, prompt engineering isolado, devoção a framework. Nas JDs, context engineering aparece disfarçado de “RAG em produção”, “embeddings e reranking”, “pipeline híbrido BM25 + vetorial”, “context window com sub-agents ou MCP”.
- Context engineering: a skill nº 1 do AI engineer em 2026 (Lucas Souza, 30/05/2026): vaga sênior de 2026 “não acha prompt engineer” no texto; pede “experiência desenhando pipelines de contexto para agentes em produção”. Introduz context utilization ratio e os cinco pilares (retrieval, compaction, structure, recency, token budget).
- Engenharia de contexto vence prompt engineering (Lucas Souza, 08/05/2026): Karpathy e Lütke (2025) renomeiam o problema; tabela comparativa de três configs (inflado vs enxuto). O autor avisa que os números são ilustrativos da ordem de grandeza (médias de pipeline próprio), não benchmark publicado replicável: referência de eixo, não verdade absoluta. Referencia Anthropic, Lost in the Middle (Liu et al., 2023) e Context Rot (Chroma, 2025).
- Glossário do AI Engineer Vol.2: 20 termos de 2026 (Lucas Souza, 26/05/2026): context engineering entra no vocabulário de times de produção; cita Anthropic calling it “the #1 job of the AI Engineer”. Bônus: cinco termos que sumiram (incluindo hype de prompt isolado).
Declínio do título “prompt engineer” (dado agregado)
- The Prompt Engineer Job Is Dead: What Replaced It in 2026 (SolidAITech, abr/2026): ~73% de queda em postagens com título “Prompt Engineer” no agregado Indeed/LinkedIn (pico 2023 → abr/2026). Skill absorvida por AI Systems Auditor, LLM Quality Analyst, AI Pipeline Engineer. Fonte citada pelo levantamento BR do Beer And Code acima.
Definição técnica e context rot (primárias)
- Effective context engineering for AI agents (Anthropic Engineering): define context engineering como “strategies for curating and maintaining the optimal set of tokens during LLM inference”; evolução natural do prompt engineering. Princípio guia: menor conjunto de tokens de alto sinal que maximiza o resultado desejado. Formaliza context rot e estratégias (compaction, just-in-time retrieval, sub-agentes).
- Context engineering tools cookbook (Anthropic, Claude Cookbooks): compaction, tool-result clearing e memory como alavancas de eficiência de contexto.
Versionamento de instruções em Git
- Prompt templates (llmbestpractices): pasta
prompts/no repo, filename estável, placeholders nomeados, eval ao lado do template. - AGENTS.md: padrão aberto para agentes de código (Codex, Cursor, Copilot); não substitui
system_prompt.mdde portal RAG. - Claude Code memory (CLAUDE.md): instruções de projeto por sessão na CLI Anthropic.
- Tock: RAG Prompt Framework: system rules + business rules + runtime data + schema JSON (modelo conceitual para chatbot B2B).
- Prompt versioning strategies: prompts como artefatos em Git, revisados em PR, com metadata e rollback.
Trilha Núcleo Desk
- Mapa LLM, RAG, agentes e MCP: episódio anterior da trilha; persona Núcleo Desk e papéis ACL.
LGPD e contexto com dado pessoal
- ANPD: Lei Geral de Proteção de Dados: base legal para tratamento de dado pessoal em contexto de assistente interno (políticas RH, auditoria).