IA na berlinda: Brasil está no grupo de países que vai 'testar' a tecnologia

E se nós pudéssemos fazer questionamentos às IAs, não usando-as como fonte de pesquisa, mas como fossemos professores, e elas alunas? Um grupo de cientistas de mais de 40 países, entre eles o Brasil, decidiu dar forma a essa ideia.

Tópicos

Mas como funciona o HLE?

Uma avaliação mais aprofundada

Implicações para o dia a dia de quem usa IA

- Publicidade -

O chamado Último Exame da Humanidade (Humanity’s Last Exam, em inglês), foi apresentado em janeiro pela revista Nature. A plataforma reúne mais de 2,5 mil perguntas em diferentes áreas do conhecimento, como matemática, história e filosofia.

O objetivo desse “provão” é justamente “testar” os conhecimentos de diferentes modelos de linguagem de IA, sobretudo aqueles usados nos chatbots mais famosos, como ChatGPT (OpenAI), Gemini (Google) e Claude (Anthropic). Os pesquisadores brasileiros são oriundos da Universidade de São Paulo (USP).

- Publicidade -

Mas como funciona o HLE?

O Último Exame da Humanidade roda exatamente igual outros “testadores de IA” que já existem. Pois é, a iniciativa não é nenhuma novidade.

Basicamente, os pesquisadores estão criando scripts que são submetidos às IAs com instruções simples de entender. O objetivo aqui não é confundir os LLMs (sigla em inglês para Modelos de Linguagem Ampla, o conceito que fundamenta as inteligências artificiais) sobre o que eles têm que fazer, mas forçar sua capacidade na resolução das questões apresentadas, exatamente como em provas acadêmicas.

- Publicidade -

Porém, o objetivo dos pesquisadores com o Humanity’s Last Exam não é ter “mais um” benchmark (medidor de capacidade técnica) para IAs; espera-se que o HLE seja a resposta definitiva, a prova de fogo final.

Inteligência artificial. — As IAs serão obrigadas a “pensar” com o HLE – Imagem: Freepik/Reprodução

Uma avaliação mais aprofundada

Durante a implementação do HLE, as IAs devem responder e raciocinar profundamente sobre questões que vão desde dilemas comuns até questões mais difíceis.

TIM Brasil segue com aquisições apesar de crise na Itália

Dentre os principais interesses dos pesquisadores estão disciplinas como linguagens, história da humanidade e ciências exatas aplicadas.

Conforme os resultados forem aparecendo, novos parâmetros serão estabelecidos e computados em favor ou em desfavor de cada modelo.

Implicações para o dia a dia de quem usa IA

Com o surgimento de mais esse benchmark para aferição das capacidades da IA surge uma dúvida: alguma coisa muda no dia a dia de quem usa essa tecnologia? A resposta é difusa, mas pende mais para sim do que para não.

- Publicidade -

Os resultados obtidos em sistemas como esse costumam influenciar melhorias em modelos de IA, que normalmente são atualizados a todo momento. Logo, os dados do Último Exame da Humanidade certamente contribuirão para a melhoria de vários modelos.

O Humanity’s Last Exam já está disponível. Você pode acessar a página oficial do HLE e conferir alguns resultados obtidos em testes recentes feitos em alguns modelos de IA.

* Com informações do Jornal da USP