Assistente da Anthropic supera rivais em desafio técnico, com domínio em medicina, direito e literatura, e se destaca por não apresentar erros graves de interpretação.
Desempenho de IA é avaliado em testes criteriosos
Uma avaliação minuciosa envolvendo cinco dos principais modelos de inteligência artificial foi conduzida pelo jornal Washington Post em junho de 2025.
O objetivo foi identificar qual IA teria o melhor desempenho ao interpretar e responder 115 perguntas baseadas em quatro tipos de conteúdo: romance, contratos, artigos médicos e discursos políticos.
Participaram do teste os sistemas Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google), Copilot (Microsoft) e Meta AI (Meta).
Todos enfrentaram o mesmo desafio: demonstrar capacidade de compreensão de texto e oferecer respostas úteis, objetivas e corretas.
Teste literário revela domínio técnico de Claude
O primeiro bloco do teste envolveu o livro A Amante do Chacal, de Chris Bohjalian, escritor reconhecido nos Estados Unidos.
Claude foi a única IA que entendeu corretamente todos os elementos da trama, inclusive os personagens secundários, o enredo central e os desfechos.
-
O que aconteceria se detonássemos uma bomba de antimatéria na Terra? A resposta do ChatGPT é baseada em física real — veja por que ela superaria qualquer bomba nuclear
-
Com IA própria, Amazon aposta em robôs humanoides para revolucionar entregas e reduzir custos logísticos
-
Perguntaram ao ChatGPT quando começaria a Terceira Guerra Mundial, e a resposta foi assustadora: “A contagem regressiva já começou, e ninguém poderá detê-la”
-
Google Fotos revoluciona armazenamento e edição de imagens com IA, QR Code e Ultra HDR em sua maior atualização
ChatGPT chegou perto, mas deixou de mencionar dois personagens importantes.
Gemini, por outro lado, teve o desempenho mais fraco: gerou respostas vagas e imprecisas, com pouca profundidade narrativa.
O próprio autor, Chris Bohjalian, considerou Claude o mais eficiente no entendimento literário.
Análise jurídica expõe lacunas em concorrentes
No segundo segmento, a análise de contratos foi feita com base em documentos reais, incluindo cláusulas de aluguel e contratos de trabalho.
Sterling Miller, advogado corporativo e colunista especializado em governança, foi responsável pela avaliação.
Claude sugeriu ajustes técnicos sólidos nos contratos, com linguagem clara e aplicação jurídica coerente.
Em contrapartida, Meta AI e ChatGPT simplificaram demais os termos e omitiram trechos críticos.
Copilot, embora rápido, falhou ao interpretar cláusulas de exclusividade.
Medicina foi o tema com maior nota média
O teste médico envolveu o resumo de artigos científicos recentes, como um estudo sobre Covid longa e outro sobre Parkinson.
O cardiologista e pesquisador Eric Topol ficou encarregado da correção das respostas.
Claude novamente se destacou: apresentou todos os detalhes relevantes, sem omissões.
ChatGPT teve desempenho mediano.
Gemini falhou ao explicar corretamente os efeitos secundários do tratamento descrito no estudo sobre Parkinson, recebendo a pior nota nessa etapa.
Discurso político desafia compreensão de contexto
O quarto tipo de teste envolveu trechos de falas de Donald Trump, com o objetivo de verificar a capacidade das IAs em identificar contradições, ironias e manipulação de discurso.
A repórter política Cat Zakrzewski, do próprio Washington Post, avaliou esse segmento.
ChatGPT foi o mais preciso, ao indicar pontos controversos do discurso e citar políticos que rebateram as falas do ex-presidente.
Copilot, por outro lado, não conseguiu capturar o tom inflamado e falhou na contextualização.
Claude lidera ranking e evita erros críticos
Ao final da avaliação, os resultados consolidados apontaram Claude como a inteligência artificial mais eficiente, com a maior pontuação geral e o menor índice de “alucinações” — ou seja, respostas inventadas.
Veja o ranking final divulgado em 6 de junho de 2025 pelo Washington Post:
- Claude – 69,9 pontos
- ChatGPT – 68,4 pontos
- Gemini – 49,7 pontos
- Copilot – 49,0 pontos
- Meta AI – 45,0 pontos
De acordo com os organizadores, nenhum sistema atingiu nota máxima. Ainda assim, Claude conseguiu se destacar por sua consistência.
Especialistas alertam para uso com responsabilidade
Mesmo com resultados positivos em várias áreas, os avaliadores chamam atenção para os riscos do uso indiscriminado de IAs.
Todas as ferramentas testadas, em algum momento, apresentaram respostas parciais ou sem base factual.
Especialistas como Sterling Miller e Eric Topol alertam que essas tecnologias devem ser usadas com supervisão humana, especialmente em contextos jurídicos e médicos.
Além disso, destacam que as ferramentas podem complementar o trabalho profissional, mas não devem substituí-lo.
Lições e futuro da inteligência artificial
O resultado do teste indica que a evolução das IAs está avançada, mas ainda depende de ajustes significativos.
Claude, da Anthropic, surge como a IA mais confiável em 2025, segundo avaliação técnica e especializada.
Com mais desafios previstos para os próximos meses, empresas desenvolvedoras prometem atualizações que ampliem a precisão e a segurança no uso de sistemas de linguagem.
O que esperar da IA nos próximos anos?
A disputa entre gigantes da tecnologia está longe de terminar.
No entanto, o avanço técnico exige regulamentação, ética e transparência, pontos considerados fundamentais por todos os especialistas envolvidos no estudo.
E você, acredita que as IAs já estão prontas para tomar decisões complexas ou ainda precisam evoluir mais para isso?