IA na berlinda: Brasil está no grupo de países que vai 'testar' a tecnologia

E se nós pudéssemos fazer questionamentos às IAs, não usando-as como fonte de pesquisa, mas como fossemos professores, e elas alunas? Um grupo de cientistas de mais de 40 países, entre eles o Brasil, decidiu dar forma a essa ideia.

Tópicos

Mas como funciona o HLE?

Uma avaliação mais aprofundada

Implicações para o dia a dia de quem usa IA

- Publicidade -

O chamado Último Exame da Humanidade (Humanity’s Last Exam, em inglês), foi apresentado em janeiro pela revista Nature. A plataforma reúne mais de 2,5 mil perguntas em diferentes áreas do conhecimento, como matemática, história e filosofia.

O objetivo desse “provão” é justamente “testar” os conhecimentos de diferentes modelos de linguagem de IA, sobretudo aqueles usados nos chatbots mais famosos, como ChatGPT (OpenAI), Gemini (Google) e Claude (Anthropic). Os pesquisadores brasileiros são oriundos da Universidade de São Paulo (USP).

- Publicidade -

Mas como funciona o HLE?

O Último Exame da Humanidade roda exatamente igual outros “testadores de IA” que já existem. Pois é, a iniciativa não é nenhuma novidade.

Basicamente, os pesquisadores estão criando scripts que são submetidos às IAs com instruções simples de entender. O objetivo aqui não é confundir os LLMs (sigla em inglês para Modelos de Linguagem Ampla, o conceito que fundamenta as inteligências artificiais) sobre o que eles têm que fazer, mas forçar sua capacidade na resolução das questões apresentadas, exatamente como em provas acadêmicas.

- Publicidade -

Porém, o objetivo dos pesquisadores com o Humanity’s Last Exam não é ter “mais um” benchmark (medidor de capacidade técnica) para IAs; espera-se que o HLE seja a resposta definitiva, a prova de fogo final.

Inteligência artificial. — As IAs serão obrigadas a “pensar” com o HLE – Imagem: Freepik/Reprodução

Uma avaliação mais aprofundada

Durante a implementação do HLE, as IAs devem responder e raciocinar profundamente sobre questões que vão desde dilemas comuns até questões mais difíceis.

Intelbras e Aquario lançam kits de receptor para a TV 3.0 (DTV+) no Brasil

Dentre os principais interesses dos pesquisadores estão disciplinas como linguagens, história da humanidade e ciências exatas aplicadas.

Conforme os resultados forem aparecendo, novos parâmetros serão estabelecidos e computados em favor ou em desfavor de cada modelo.

Implicações para o dia a dia de quem usa IA

Com o surgimento de mais esse benchmark para aferição das capacidades da IA surge uma dúvida: alguma coisa muda no dia a dia de quem usa essa tecnologia? A resposta é difusa, mas pende mais para sim do que para não.

- Publicidade -

Os resultados obtidos em sistemas como esse costumam influenciar melhorias em modelos de IA, que normalmente são atualizados a todo momento. Logo, os dados do Último Exame da Humanidade certamente contribuirão para a melhoria de vários modelos.

O Humanity’s Last Exam já está disponível. Você pode acessar a página oficial do HLE e conferir alguns resultados obtidos em testes recentes feitos em alguns modelos de IA.

* Com informações do Jornal da USP