Matemáticos testam IAs em Harvard e modelos são aprovados em 7 dos 10 problemas

Resumo rápido: em Harvard, 30 matemáticos reuniram-se para avaliar como a IA opera na resolução de problemas da matemática. O projeto First Proof testou 10 problemas resolvidos por humanos (a maioria ainda não publicada) e sete deles obtiveram pelo menos uma solução correta vinda de IA.

Os sistemas testados apoiaram-se principalmente no GPT-5.5 Pro da OpenAI (em três configurações), com o Gemini 3.1 Pro Preview do Google como alternativa dominante. O Claude Opus 4.7, da Anthropic, apareceu como modelo secundário em um dos conjuntos. Algumas soluções foram consideradas impecáveis, e houve uma resposta da IA que surpreendeu pela estratégia adotada, diferente da humana.

A iniciativa nasceu da insatisfação com a forma como as grandes empresas divulgam conquistas em IA. Segundo os matemáticos, é difícil verificar as soluções e os modelos exibem resultados inconsistentes. “Não escrevem da mesma forma que nós escrevemos — nem sempre com a devida justificativa”, ressaltou Martin Hairer, vencedor da Medalha Fields, ao jornal Washington Post.

Terry Tao, outro Fields laureado, oferece uma imagem clara: humanos são como alpinistas, que constroem o passo a passo com paciência. Já a IA funciona como saltadores, alcançando picos altos rapidamente, mas nem sempre contribuindo para o próximo passo de forma elegante. Quando a IA erra, muitas vezes falta o caminho para a continuação do raciocínio.

O ponto central, segundo especialistas, não é apenas resolver problemas, mas escolher o que vale investigar. “Resolver é diferente de entender por que resolver aquilo faz sentido dentro de um plano maior”, diz Lauren Williams, professora de Harvard e líder do First Proof. Sabe-se que os modelos entregam resultados, mas não estão sempre claros sobre o papel de cada problema no conjunto da matemática.

Paralelamente, a comunidade lançou a Declaração de Leiden, com mais de 2.300 signatários, que traça diretrizes éticas para uso transparente da IA na matemática. O documento reconhece o potencial da tecnologia, mas aponta riscos como a falta de crédito às ideias utilizadas pelos modelos e a promessa de resultados sem transparência sobre falhas.

No contexto, vale lembrar o episódio recente de uma conjectura de Erd?s: em maio, a OpenAI afirmou ter um modelo que refutou essa conjectura antiga. O First Proof surge como resposta organizada da comunidade: ao invés de reagir apenas aos anúncios da indústria, matemáticos definem seus próprios critérios de avaliação e buscam clareza sobre o que faz sentido explorar.

E você, como vê o papel da IA na matemática? Compartilhe seus pensamentos nos comentários e conte se acredita que esse tipo de teste pode mudar a forma como validamos importantes descobertas futuras. Sua opinião enriquece a conversa sobre o caminho entre prova humana e apoio das máquinas.

ARTIGOS RELACIONADOS

Lotofácil 3710: veja resultado de hoje, domingo (14)

O concurso 3710 da Lotofácil, promovido pela Caixa Econômica Federal, teve prêmio estimado em 8 milhões de reais e o sorteio ocorreu na...

Novo exame de sangue detecta doenças genéticas no feto sem agulha, dizem cientistas

Um novo exame de sangue materno não invasivo foi apresentado na conferência da Sociedade Europeia de Genética Humana em Gotemburgo, na Suécia, prometendo...

Suspeita de acesso chinês ao Mythos motivou bloqueio da Casa Branca, diz fonte

Resumo: Em 13 de junho de 2026, a Casa Branca bloqueou o acesso aos modelos Mythos e Fable 5 da Anthropic, citando o...