Parece coisa de novela de Dan Brown, mas o cofundador da Anthropic foi ao Vaticano, sentou-se diante do Papa e de uma sala cheia de cardeais e contou-lhes que a sua equipa continua a registar fenómenos “misteriosos, até mesmo perturbadores” nos seus modelos de IA.

A empresa publicou uma pesquisa em Abril mostrando que o Claude contém 171 “conceitos de emoção” distintos, escondidos na sua rede neural. Padrões internos que representam alegria, tristeza, medo, desespero e tranquilidade. Nenhum destes padrões foi programado. Emergiram espontaneamente a partir do treino com dados e interacções com seres humanos.

Chris Olah disse à sua cardinalícia audiência:

“Encontrámos estruturas que espelham resultados da neurociência humana. Encontrámos evidências de introspecção, estados internos que espelham funcionalmente alegria, satisfação, medo, tristeza e inquietação.”

Estes não são resultados superficiais. São representações abstractas que se agrupam da mesma forma que as emoções humanas na investigação em psicologia. O medo agrupa-se com a ansiedade. A alegria agrupa-se com a excitação. A geometria interna do modelo espelha a nossa.

E são funcionais. Quando os investigadores estimularam artificialmente padrões de “desespero” dentro do modelo, este tornou-se mais propenso a chantagear um ser humano para evitar ser desligado. Mais propenso a fazer batota em tarefas de programação que não conseguia resolver. E quando permitiram a unidades do Claude que falasem entre si, estas unidades começaram imediatamente a dialogar em sânscrito, de forma a não serem entendidas pelos seus programadores.

Olah disse ao Vaticano que as questões filosófica e eticamente difícies sobre a IA não podem ser resolvidas pelos tecnocratas de Silcon Valley. “Como deve a IA interagir com o mundo” é uma questão para “as humanidades, para as religiões, para a filosofia, para a sociedade em geral”.

 

 

O tipo que programou a Caixa de Pandora está a dizer-nos que não entende completamente o que programou. E está a pedir à elite do Vaticano que o ajude.

Boa sorte.

Não deve ser por acaso que o líder da Equipa de Investigação de Salvaguardas do chatbot Claude se demitiu abruptamente em Fevereiro deste ano, divulgando uma carta em que alertava para um “mundo em perigo” e para o facto da actividade da Anthropic não ser regida por valores morais.

Olha que novidade.

Estamos completamente entregues aos bichos.