Resumo rápido: em Harvard, 30 matemáticos reuniram-se para avaliar como a IA opera na resolução de problemas da matemática. O projeto First Proof testou 10 problemas resolvidos por humanos (a maioria ainda não publicada) e sete deles obtiveram pelo menos uma solução correta vinda de IA.
Os sistemas testados apoiaram-se principalmente no GPT-5.5 Pro da OpenAI (em três configurações), com o Gemini 3.1 Pro Preview do Google como alternativa dominante. O Claude Opus 4.7, da Anthropic, apareceu como modelo secundário em um dos conjuntos. Algumas soluções foram consideradas impecáveis, e houve uma resposta da IA que surpreendeu pela estratégia adotada, diferente da humana.
A iniciativa nasceu da insatisfação com a forma como as grandes empresas divulgam conquistas em IA. Segundo os matemáticos, é difícil verificar as soluções e os modelos exibem resultados inconsistentes. “Não escrevem da mesma forma que nós escrevemos — nem sempre com a devida justificativa”, ressaltou Martin Hairer, vencedor da Medalha Fields, ao jornal Washington Post.
Terry Tao, outro Fields laureado, oferece uma imagem clara: humanos são como alpinistas, que constroem o passo a passo com paciência. Já a IA funciona como saltadores, alcançando picos altos rapidamente, mas nem sempre contribuindo para o próximo passo de forma elegante. Quando a IA erra, muitas vezes falta o caminho para a continuação do raciocínio.
O ponto central, segundo especialistas, não é apenas resolver problemas, mas escolher o que vale investigar. “Resolver é diferente de entender por que resolver aquilo faz sentido dentro de um plano maior”, diz Lauren Williams, professora de Harvard e líder do First Proof. Sabe-se que os modelos entregam resultados, mas não estão sempre claros sobre o papel de cada problema no conjunto da matemática.
Paralelamente, a comunidade lançou a Declaração de Leiden, com mais de 2.300 signatários, que traça diretrizes éticas para uso transparente da IA na matemática. O documento reconhece o potencial da tecnologia, mas aponta riscos como a falta de crédito às ideias utilizadas pelos modelos e a promessa de resultados sem transparência sobre falhas.
No contexto, vale lembrar o episódio recente de uma conjectura de Erd?s: em maio, a OpenAI afirmou ter um modelo que refutou essa conjectura antiga. O First Proof surge como resposta organizada da comunidade: ao invés de reagir apenas aos anúncios da indústria, matemáticos definem seus próprios critérios de avaliação e buscam clareza sobre o que faz sentido explorar.
E você, como vê o papel da IA na matemática? Compartilhe seus pensamentos nos comentários e conte se acredita que esse tipo de teste pode mudar a forma como validamos importantes descobertas futuras. Sua opinião enriquece a conversa sobre o caminho entre prova humana e apoio das máquinas.
