E se nós pudéssemos fazer questionamentos às IAs, não usando-as como fonte de pesquisa, mas como fossemos professores, e elas alunas? Um grupo de cientistas de mais de 40 países, entre eles o Brasil, decidiu dar forma a essa ideia.
O chamado Último Exame da Humanidade (Humanity’s Last Exam, em inglês), foi apresentado em janeiro pela revista Nature. A plataforma reúne mais de 2,5 mil perguntas em diferentes áreas do conhecimento, como matemática, história e filosofia.
O objetivo desse “provão” é justamente “testar” os conhecimentos de diferentes modelos de linguagem de IA, sobretudo aqueles usados nos chatbots mais famosos, como ChatGPT (OpenAI), Gemini (Google) e Claude (Anthropic). Os pesquisadores brasileiros são oriundos da Universidade de São Paulo (USP).
Mas como funciona o HLE?
O Último Exame da Humanidade roda exatamente igual outros “testadores de IA” que já existem. Pois é, a iniciativa não é nenhuma novidade.
Basicamente, os pesquisadores estão criando scripts que são submetidos às IAs com instruções simples de entender. O objetivo aqui não é confundir os LLMs (sigla em inglês para Modelos de Linguagem Ampla, o conceito que fundamenta as inteligências artificiais) sobre o que eles têm que fazer, mas forçar sua capacidade na resolução das questões apresentadas, exatamente como em provas acadêmicas.
Porém, o objetivo dos pesquisadores com o Humanity’s Last Exam não é ter “mais um” benchmark (medidor de capacidade técnica) para IAs; espera-se que o HLE seja a resposta definitiva, a prova de fogo final.

Uma avaliação mais aprofundada
Durante a implementação do HLE, as IAs devem responder e raciocinar profundamente sobre questões que vão desde dilemas comuns até questões mais difíceis.
Dentre os principais interesses dos pesquisadores estão disciplinas como linguagens, história da humanidade e ciências exatas aplicadas.
Conforme os resultados forem aparecendo, novos parâmetros serão estabelecidos e computados em favor ou em desfavor de cada modelo.
Implicações para o dia a dia de quem usa IA
Com o surgimento de mais esse benchmark para aferição das capacidades da IA surge uma dúvida: alguma coisa muda no dia a dia de quem usa essa tecnologia? A resposta é difusa, mas pende mais para sim do que para não.
Os resultados obtidos em sistemas como esse costumam influenciar melhorias em modelos de IA, que normalmente são atualizados a todo momento. Logo, os dados do Último Exame da Humanidade certamente contribuirão para a melhoria de vários modelos.
O Humanity’s Last Exam já está disponível. Você pode acessar a página oficial do HLE e conferir alguns resultados obtidos em testes recentes feitos em alguns modelos de IA.
* Com informações do Jornal da USP












