Por Que Seus Prompts São Inconsistentes (E Como Corrigir)
Prompts são inconsistentes porque deixam lacunas para o modelo preencher. As três correções estruturais são: (1) adicionar papel e contexto, (2) especificar o formato de saída explicitamente e (3) substituir adjetivos vagos por restrições mensuráveis. Cada lacuna que você deixa vira uma fonte de inconsistência.
Você escreve um prompt. Funciona. Roda de novo no dia seguinte e recebe algo completamente diferente. Soa familiar?
Inconsistência em prompts é um dos problemas mais frustrantes de quem trabalha com LLMs — e a maioria diagnostica errado. Assumem que o modelo é "aleatório" ou "não confiável". O problema real é quase sempre estrutural: o prompt deixa muito para o modelo decidir.
O motivo real pelo qual prompts falham de forma inconsistente
LLMs não seguem instruções como um computador executa código. Eles interpretam instruções. E interpretação depende de contexto, formulação e o quanto de ambiguidade você deixou no prompt.
Quando um prompt é subespecificado, o modelo preenche as lacunas. Às vezes do jeito que você queria. Às vezes não. O output parece aleatório, mas a inconsistência é sua — você deixou espaço para interpretação.
Aqui estão as três razões estruturais mais comuns pelas quais prompts falham de forma inconsistente:
1. Ausência de definição de papel
Prompts sem um papel claro forçam o modelo a adivinhar em que "modo" operar. "Resuma este artigo" pode significar: um resumo de uma frase para um tweet, um resumo executivo estruturado, uma lista de bullets ou um parágrafo fluído para uma newsletter.
Sem saber quem está pedindo e para quê, o modelo escolhe uma interpretação arbitrariamente.
Correção: Adicione papel e contexto. "Você é um editor de conteúdo. Resuma este artigo em 3 bullets para uma audiência de newsletter B2B SaaS." Agora o modelo tem limites de decisão.
2. Formato de saída não especificado
Dizer ao modelo o que produzir sem dizer como formatar é como pedir a um desenvolvedor para "só construir algo". Você vai receber algo, mas não de forma confiável a mesma coisa duas vezes.
Correção: Seja explícito. "Retorne um objeto JSON com as chaves: resumo (string), pontos_principais (array de 3 strings), tom (um de: formal, casual, técnico)." Quanto mais estruturado o spec de output, mais consistente o output.
3. Sinais de qualidade vagos
Palavras como "bom", "claro", "profissional" e "conciso" têm significados diferentes para o modelo dependendo do contexto ao redor. Não são restrições — são vibes.
Correção: Substitua adjetivos vagos por restrições mensuráveis. Em vez de "escreva uma explicação clara", tente "explique em menos de 100 palavras, sem jargões, para quem nunca usou o produto". Agora o modelo tem algo concreto para otimizar.
O problema da divisão system/user
Se você usa a API e coloca tudo na mensagem do usuário, está perdendo o mecanismo de consistência mais poderoso disponível: o system prompt. O system prompt é onde você define comportamento permanente — papel, formato, restrições, tom. A mensagem do usuário é onde você passa o input variável.
Misturar os dois na mensagem do usuário significa que suas instruções "permanentes" competem com seu input a cada vez. O modelo não as trata diferentemente — é tudo apenas contexto, ponderado por posição e formulação.
Correção: Coloque tudo que nunca deve mudar no system prompt. Coloque apenas o que muda por requisição na mensagem do usuário.
Como auditar seus prompts para inconsistência
Antes de rodar um prompt em produção, pergunte-se:
- Se eu removesse todos os adjetivos deste prompt, ele ainda seria específico o suficiente?
- Duas pessoas diferentes poderiam ler este prompt e ter expectativas diferentes sobre o output?
- Há algum lugar onde o modelo tem que "escolher" algo que eu não especifiquei?
Cada "sim" é um ponto potencial de inconsistência.
Se você quer um framework para saber quais dimensões são essas, detalhamos todas as quatro aqui. E se estiver pronto para construir um processo de avaliação adequado antes de publicar, este guia cobre isso passo a passo.
A abordagem mais sistemática é pontuar prompts em múltiplas dimensões — clareza, estrutura, definição de papel, spec de output — antes de chegarem à produção. É exatamente para isso que construímos o PromptEval: um score 0–100 em 4 dimensões estruturais, com callouts específicos para os pontos fracos.
A regra de uma frase
Se você não consegue resumir o que seu prompt pede em uma frase — papel, tarefa, formato de output — ele ainda não é específico o suficiente. Prompts fáceis de descrever são fáceis de executar consistentemente para o modelo.
Inconsistência não é um problema do modelo. É um problema de especificação. E especificação é algo que você pode corrigir.
Score your prompts before they hit production
PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.
Try free →