Claude humilha ChatGPT e vence desafio global de IA com 115 testes técnicos e literários em 2025

Escrito por Caio Aviz

Publicado em 08/06/2025 às 02:15

Pessoa segura smartphone com interface de IA generativa e frase “NOVA IA SOBERANA!” em 3D sobre imagem realista

Imagem ilustrativa mostra a ascensão da IA Claude, destacada por sua superioridade sobre ChatGPT em testes técnicos e literários

Assistente da Anthropic supera rivais em desafio técnico, com domínio em medicina, direito e literatura, e se destaca por não apresentar erros graves de interpretação.

Desempenho de IA é avaliado em testes criteriosos

Uma avaliação minuciosa envolvendo cinco dos principais modelos de inteligência artificial foi conduzida pelo jornal Washington Post em junho de 2025.
O objetivo foi identificar qual IA teria o melhor desempenho ao interpretar e responder 115 perguntas baseadas em quatro tipos de conteúdo: romance, contratos, artigos médicos e discursos políticos.

Participaram do teste os sistemas Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google), Copilot (Microsoft) e Meta AI (Meta).
Todos enfrentaram o mesmo desafio: demonstrar capacidade de compreensão de texto e oferecer respostas úteis, objetivas e corretas.

Teste literário revela domínio técnico de Claude

O primeiro bloco do teste envolveu o livro A Amante do Chacal, de Chris Bohjalian, escritor reconhecido nos Estados Unidos.
Claude foi a única IA que entendeu corretamente todos os elementos da trama, inclusive os personagens secundários, o enredo central e os desfechos.

— ARTIGO CONTINUA ABAIXO —

Veja também

Xaomi 14T Pro tá um absurdo de potente e barato! Corre na Shopee e garanta o seu agora!

Comprar

ChatGPT chegou perto, mas deixou de mencionar dois personagens importantes.
Gemini, por outro lado, teve o desempenho mais fraco: gerou respostas vagas e imprecisas, com pouca profundidade narrativa.
O próprio autor, Chris Bohjalian, considerou Claude o mais eficiente no entendimento literário.

Análise jurídica expõe lacunas em concorrentes

No segundo segmento, a análise de contratos foi feita com base em documentos reais, incluindo cláusulas de aluguel e contratos de trabalho.
Sterling Miller, advogado corporativo e colunista especializado em governança, foi responsável pela avaliação.

Claude sugeriu ajustes técnicos sólidos nos contratos, com linguagem clara e aplicação jurídica coerente.
Em contrapartida, Meta AI e ChatGPT simplificaram demais os termos e omitiram trechos críticos.
Copilot, embora rápido, falhou ao interpretar cláusulas de exclusividade.

Medicina foi o tema com maior nota média

O teste médico envolveu o resumo de artigos científicos recentes, como um estudo sobre Covid longa e outro sobre Parkinson.
O cardiologista e pesquisador Eric Topol ficou encarregado da correção das respostas.

Claude novamente se destacou: apresentou todos os detalhes relevantes, sem omissões.
ChatGPT teve desempenho mediano.
Gemini falhou ao explicar corretamente os efeitos secundários do tratamento descrito no estudo sobre Parkinson, recebendo a pior nota nessa etapa.

Discurso político desafia compreensão de contexto

O quarto tipo de teste envolveu trechos de falas de Donald Trump, com o objetivo de verificar a capacidade das IAs em identificar contradições, ironias e manipulação de discurso.

A repórter política Cat Zakrzewski, do próprio Washington Post, avaliou esse segmento.
ChatGPT foi o mais preciso, ao indicar pontos controversos do discurso e citar políticos que rebateram as falas do ex-presidente.
Copilot, por outro lado, não conseguiu capturar o tom inflamado e falhou na contextualização.

Claude lidera ranking e evita erros críticos

Ao final da avaliação, os resultados consolidados apontaram Claude como a inteligência artificial mais eficiente, com a maior pontuação geral e o menor índice de “alucinações” — ou seja, respostas inventadas.

Veja o ranking final divulgado em 6 de junho de 2025 pelo Washington Post:

Claude – 69,9 pontos
ChatGPT – 68,4 pontos
Gemini – 49,7 pontos
Copilot – 49,0 pontos
Meta AI – 45,0 pontos

De acordo com os organizadores, nenhum sistema atingiu nota máxima. Ainda assim, Claude conseguiu se destacar por sua consistência.

Especialistas alertam para uso com responsabilidade

Mesmo com resultados positivos em várias áreas, os avaliadores chamam atenção para os riscos do uso indiscriminado de IAs.
Todas as ferramentas testadas, em algum momento, apresentaram respostas parciais ou sem base factual.

Especialistas como Sterling Miller e Eric Topol alertam que essas tecnologias devem ser usadas com supervisão humana, especialmente em contextos jurídicos e médicos.
Além disso, destacam que as ferramentas podem complementar o trabalho profissional, mas não devem substituí-lo.

Lições e futuro da inteligência artificial

O resultado do teste indica que a evolução das IAs está avançada, mas ainda depende de ajustes significativos.
Claude, da Anthropic, surge como a IA mais confiável em 2025, segundo avaliação técnica e especializada.

Com mais desafios previstos para os próximos meses, empresas desenvolvedoras prometem atualizações que ampliem a precisão e a segurança no uso de sistemas de linguagem.

O que esperar da IA nos próximos anos?

A disputa entre gigantes da tecnologia está longe de terminar.
No entanto, o avanço técnico exige regulamentação, ética e transparência, pontos considerados fundamentais por todos os especialistas envolvidos no estudo.

E você, acredita que as IAs já estão prontas para tomar decisões complexas ou ainda precisam evoluir mais para isso?

Entrar

0 Comentários

Mais antigos

Mais recente Mais votado

Visualizar todos comentários

Claude humilha ChatGPT e vence desafio global de IA com 115 testes técnicos e literários em 2025

Assistente da Anthropic supera rivais em desafio técnico, com domínio em medicina, direito e literatura, e se destaca por não apresentar erros graves de interpretação.

Desempenho de IA é avaliado em testes criteriosos

Teste literário revela domínio técnico de Claude

Análise jurídica expõe lacunas em concorrentes

Medicina foi o tema com maior nota média

Discurso político desafia compreensão de contexto

Claude lidera ranking e evita erros críticos

Especialistas alertam para uso com responsabilidade

Lições e futuro da inteligência artificial

O que esperar da IA nos próximos anos?

Viagem de trem no Brasil tem 13 horas, cruza rios, montanhas, liga dois estados e se torna uma das atrações mais queridas dos brasileiros

Maior rota de ônibus do mundo fica no Brasil! Percurso parte do litoral, cruza países e está até no Guinness Book

Nova jazida com mais de 7.100 toneladas de ouro de altíssima pureza é descoberta no Brasil e ultraa o impressionante valor de R$ 4,2 trilhões

Gasolina ou etanol: o erro que quase todo motorista comete e que prejudica o motor flex

Esses são os 7 carros que usam correia dentada banhada a óleo no Brasil

Oficina da Bugatti cobra mais de R$ 65 mil para trocar botão do retrovisor de um Veyron. Mecânico local resolveu o problema por uma cerveja