A Falsa Dicotomia da IA: por que prompts melhores não resolvem o problema da alucinação

Resumo Executivo

Em 22 de junho de 2023, um juiz federal de Nova York sancionou advogados que submeteram petição com seis decisões judiciais inexistentes — fabricadas pelo ChatGPT. O caso Mata v. Avianca estabeleceu o medo coletivo: se a IA inventa jurisprudência, ela é incompatível com a prática jurídica. A pergunta é importante, mas a resposta popular é imprecisa. A incompatibilidade real não é entre IA generativa e Direito — é entre um tipo específico de aplicação ingênua da IA e o Direito.

Alucinação é propriedade, não bug

Modelos de linguagem de larga escala são sistemas de previsão estatística. Dado um contexto, calculam a próxima palavra mais provável com base em padrões observados durante o treinamento. Esse mecanismo — extraordinariamente poderoso para produzir texto fluente — é, por construção, insensível à verdade. O modelo não possui conceito de realidade contra o qual comparar sua saída. Produz o que estatisticamente se parece com o que viu em dados.

Esse é o fenômeno rotulado como alucinação. Em domínios onde a aparência superficial do texto é o que importa, alucinações são raras ou irrelevantes. Em domínios onde cada afirmação precisa ser factualmente correta sob pena de dano material — medicina, engenharia, Direito —, alucinações são catastróficas.

O aspecto crítico, frequentemente ignorado: alucinação não é um bug a ser corrigido. É uma propriedade estatística do método. Modelos mais sofisticados reduzem a frequência. Modelos treinados em dados jurídicos reduzem a frequência. Prompts melhores reduzem a frequência. Nenhum dos três a elimina.

A quantificação rigorosa foi conduzida pelo Stanford RegLab e pelo Stanford Institute for Human-Centered AI. O estudo Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools, publicado no Journal of Empirical Legal Studies em 2025, testou as três principais ferramentas comerciais de pesquisa jurídica por IA — todas baseadas em retrieval-augmented generation (RAG). Os resultados: Lexis+ AI apresentou taxa superior a 17% de alucinação; Westlaw AI-Assisted Research, taxa superior a 33%. Nenhuma eliminou alucinações.

No Brasil, três casos consolidam o padrão: o TSE multou em abril de 2023 advogado que protocolou petição redigida integralmente pelo ChatGPT em pedido de amicus curiae; o TJSC aplicou multa de 10% sobre o valor da causa em fevereiro de 2025 e comunicou o caso à OAB/SC; o juiz do TRT-12 caracterizou em outubro de 2025 uma petição como "ato processual inexistente", invocando expressamente a Recomendação 001/2024 da OAB. A base de dados internacional AI Hallucination Cases registrava ao início de 2026 mais de 600 casos judiciais envolvendo jurisprudência fabricada, com mais de 128 advogados sancionados.

A inferência correta dos casos não é que IA generativa seja incompatível com a advocacia. É que certas formas de uso da IA — uso direto de modelos generalistas sem arquitetura de verificação, combinado com ausência de supervisão humana qualificada — são incompatíveis com a advocacia.

Por que RAG sozinho não resolve

Quando o problem das alucinações começou a ser reconhecido como risco operacional sério, a resposta dominante dos fornecedores foi uniforme: grounding por retrieval-augmented generation. O RAG, arquitetura introduzida em artigo da NeurIPS 2020, funciona em três passos: o sistema recupera documentos relevantes de uma base de conhecimento, fornece esses documentos ao modelo como contexto, e o modelo gera a resposta com base no contexto enriquecido. A promessa: o modelo não precisa mais alucinar, porque a informação correta está diante dele.

A promessa é parcialmente verdadeira e parcialmente enganosa. RAG reduz a taxa de alucinação em relação a modelos sem grounding. A redução é consistente e mensurável. Mas não chega a zero, e os erros residuais assumem formas particularmente insidiosas.

Sistemas RAG ainda produzem dois tipos de erro. O primeiro é alucinação propriamente dita: o sistema descreve o direito incorretamente apesar de ter acesso às fontes corretas. O segundo é misgrounding: o sistema descreve o direito corretamente, mas cita como fundamento uma fonte que não sustenta a afirmação.

O segundo tipo é mais perigoso. Uma jurisprudência completamente inventada é teoricamente verificável — a contraparte ou o juízo descobre a inexistência. Uma afirmação correta com citação misgrounded é muito mais difícil de detectar: a decisão existe, é verificável, mas não diz o que o sistema afirma que ela diz. Esse erro passa pelo filtro de verificação superficial.

A constatação leva à pergunta seguinte: se uma camada de grounding não resolve, o que resolve?

Três pontos de auditoria independentes

A resposta emergente — tanto na pesquisa acadêmica quanto na prática industrial — é que verificação confiável exige intervenções independentes em múltiplos pontos do pipeline. Um único ponto de controle, por mais sofisticado, está sujeito a falhas correlacionadas. O princípio geral, conhecido em engenharia de sistemas críticos como defense in depth, é o mesmo que orienta arquiteturas de segurança em aviação, em medicina intensiva e em energia nuclear.

O paper completo desenvolve três camadas de auditoria que precisam operar de forma independente:

Camada 1 — Auditoria de Estratégia. Antes que qualquer texto jurídico seja produzido. Valida a aplicabilidade dos artigos legais ao caso, a existência e pertinência dos precedentes jurisprudenciais, e a coerência interna da linha argumentativa. Captura no estágio de planejamento erros que seriam caros de corrigir após produção de texto.

Camada 2 — Validação Estrutural. Durante a execução do pipeline. Garante que o documento em construção respeite as normas processuais aplicáveis e os checklists obrigatórios específicos do tipo de peça (petição inicial cível, recurso de apelação, parecer tributário). Captura classe de falhas cuja raiz não é alucinação, mas omissão.

Camada 3 — Auditoria Pós-Redação. Após a produção do texto final. Compara, afirmação por afirmação, o texto contra fontes de autoridade independentes. Inclui verificação de existência de citações, verificação de grounding (captura o erro de misgrounding identificado por Stanford), verificação de vigência das normas, verificação de consistência interna, conformidade com o plano estratégico, e sinalização explícita de afirmações não ancoradas.

A independência entre as três camadas é condição necessária de sua eficácia conjunta. Se as três auditorias fossem conduzidas pelo mesmo mecanismo, suas falhas seriam correlacionadas: um erro que escapasse à primeira camada teria probabilidade elevada de também escapar às duas seguintes.

▶ ASSISTA À DISCUSSÃO COMPLETA

Análise técnica da arquitetura de auditoria em três camadas independentes.

Human-in-the-Loop arquitetural, não disclaimer

A melhor arquitetura de auditoria automatizada ainda é insuficiente para substituir o juízo humano qualificado em um ponto crítico: o momento em que o documento é assinado e protocolado. Isso não é limitação da tecnologia — é princípio arquitetural deliberado.

Em sua decisão sancionatória em Mata v. Avianca, o juiz P. Kevin Castel foi explícito: "avanços tecnológicos são comuns, e não há nada inerentemente impróprio no uso de uma ferramenta de inteligência artificial confiável para assistência". Os advogados não foram sancionados pelo uso do ChatGPT. Foram sancionados por terem abandonado o seu papel de guardiões — gatekeeping role — da exatidão de suas petições.

O conceito de gatekeeping role é o ponto doutrinário que importa. Em Johnson v. Dunn (Northern District of Alabama, julho 2025), a corte foi ainda mais específica: o advogado cuja assinatura está em uma peça é responsável por cada afirmação feita como verdadeira naquela peça, independentemente de quem a tenha redigido originalmente.

Em engenharia de sistemas de IA, o termo Human-in-the-Loop (HITL) designa arquiteturas em que decisões de consequência material exigem intervenção humana explícita antes de serem executadas. Em domínios de alta consequência — e a advocacia é, por todas as métricas relevantes, um domínio de alta consequência —, HITL é requisito inegociável.

É comum que fornecedores de IA incluam, em termos de serviço, cláusulas isentando-se de responsabilidade por saídas incorretas. Essa prática não cumpre o que se entende por HITL na engenharia moderna. HITL não é um disclaimer legal. É uma propriedade técnica do sistema. Um sistema que simplesmente imprime um aviso "verifique tudo" não é HITL. Um sistema que estrutura sua interface, seus metadados e seus fluxos de trabalho de modo a facilitar a revisão humana qualificada, sim, é HITL.

🎧 OUÇA O PODCAST COMPLETO

Aprofundamento técnico sobre arquitetura de auditoria e responsabilidade do advogado revisor.

O marco regulatório brasileiro

O princípio HITL não é apenas boa prática de engenharia. No contexto brasileiro, é exigência normativa explícita. A Recomendação CFOAB nº 001/2024, aprovada em novembro de 2024, em seu item 3.3, estabelece textualmente que "a dependência excessiva de ferramentas de IA é inconsistente com a prática da advocacia e não pode substituir a análise realizada pelo advogado". O item 2.2 impõe diligência na escolha do fornecedor: verificar contratualmente que protege as informações, adota medidas de segurança, e veda o uso dos dados para treinamento de sistemas.

A Resolução CNJ nº 615/2025, em vigor desde julho de 2025, embora dirigida ao Poder Judiciário, tem relevância regulatória indireta significativa. Estabelece princípios obrigatórios para soluções de IA no Judiciário: supervisão humana, explicabilidade, classificação de risco, cadastro no Sinapses, e avaliação de impacto algorítmico para sistemas de alto risco. Fornecedores que operam simultaneamente no Judiciário e na advocacia privada tendem a alinhar suas soluções a esses padrões — que se tornam, de fato, referência informal de boas práticas setoriais.

A combinação dessas normas com o Estatuto da Advocacia (sigilo profissional, art. 7º, XIX) e com a LGPD permite derivar requisitos operacionais que sistemas jurídicos corporativos sérios precisam satisfazer no Brasil: tenant isolation lógico verificável, vedação ao uso de dados de clientes para treinamento de modelos compartilhados, arquitetura de auditoria em múltiplas camadas independentes, rastreabilidade completa por identificador de fluxo, mecanismos de sinalização explícita de incertezas, e transparência arquitetural para o cliente-escritório.

Segurança não é feature — é arquitetura

O argumento central pode ser resumido em uma proposição: confiabilidade em IA jurídica corporativa não é uma feature que se adiciona ao produto no final do desenvolvimento. É uma decisão arquitetural tomada no primeiro dia.

Essa distinção separa duas filosofias de engenharia. A primeira assume que o modelo subjacente é confiável e trata erros como casos excepcionais corrigíveis por camadas de verificação superficial. A segunda assume que o modelo subjacente vai errar — não porque seja mal-projetado, mas porque modelos de linguagem são sistemas estatísticos insensíveis à verdade — e desenha todo o produto para capturar esses erros antes que cheguem ao advogado revisor.

A primeira filosofia produziu Mata v. Avianca, os casos brasileiros no TSE, TJSC e TRT-12, os mais de 600 casos documentados internacionalmente. A segunda filosofia produz sistemas que, embora imperfeitos — e nenhum sistema jamais será perfeito —, são adequados ao padrão de diligência que a profissão jurídica exige.

Um sistema de IA jurídica corporativa não é confiável porque seu modelo subjacente é bom. É confiável porque sua arquitetura assume, desde o primeiro dia, que seu modelo subjacente vai errar — e captura esses erros antes que cheguem ao advogado.

LawAgent · Tese arquitetural

A falsa dicotomia entre segurança jurídica e IA generativa é falsa porque assume que a tecnologia é o que ela era em 2023, quando o caso Mata foi julgado. A tecnologia não é a mesma. A arquitetura não é a mesma. Os padrões regulatórios não são os mesmos. E as expectativas da profissão não são as mesmas. O que permanece é a responsabilidade do advogado — e essa nunca foi objeto de terceirização.

Entre uma profissão paralisada pelo medo de uma tecnologia que ainda não entende, e uma profissão que absorve com discernimento os avanços técnicos que maturam em cada ciclo de pesquisa, existe apenas a disposição de compreender, em detalhe, como as arquiteturas contemporâneas efetivamente funcionam.

Se esta análise foi útil para você ou para seu escritório, compartilhe com outros sócios sêniores. O conteúdo do Manifesto LawAgent é desenhado para circular entre profissionais da alta advocacia brasileira.

NOTA EDITORIAL

Equipe LawAgent

Análise editorial institutional

Conteúdo produzido pela equipe LawAgent com apoio de ferramentas de inteligência artificial, baseado em pesquisas realizadas pela equipe. O LawAgent é o companion de IA jurídica desenhado para sócios sêniores, boutiques especializadas e departamentos jurídicos in-house.

Próximas edições

A próxima edição do Manifesto LawAgent será publicada em breve.

Leve essa edição em PDF.

Versão executiva pronta para circular internamente no seu escritório.

Baixar PDF

Quer ver como o LawAgent aplica essas ideias na prática dos escritórios brasileiros?

Assinar LawAgent-ai →