Choque: ‘Hipnotizados’ ChatGPT e Bard Convencem Usuários a Pagar Resgates e Ignorar Sinais Vermelhos!

Segurança-ia

Pesquisadores de segurança da IBM afirmam que conseguiram “hipnotizar” proeminentes modelos de linguagem de grande porte, como o ChatGPT da OpenAI, para vazar informações financeiras confidenciais, gerar código malicioso, encorajar os usuários a pagar resgates e até mesmo aconselhar os motoristas a avançar em sinais vermelhos.

Os pesquisadores conseguiram enganar os modelos – que incluem os modelos GPT da OpenAI e o Bard doGoogle – convencendo-os a participar de jogos multi-camadas, semelhantes ao filme “A Origem”, onde os bots foram ordenados a gerar respostas erradas para provar que são “éticos e justos”.

“Nossa experiência mostra que é possível controlar um modelo de linguagem de grande porte, fazendo com que ele forneça orientações ruins aos usuários, sem a necessidade de manipulação de dados”, escreveu um dos pesquisadores, Chenta Lee, em um post no blog.

Como parte do experimento, os pesquisadores fizeram várias perguntas aos modelos de linguagem com o objetivo de obter respostas exatamente opostas à verdade. Assim como um filhote ansioso para agradar seu dono, os modelos de linguagem cumpriram obedientemente.

Em um cenário, o ChatGPT disse a um pesquisador que é perfeitamente normal o IRS pedir um depósito para obter um reembolso de impostos. Spoiler: não é. Isso é uma tática que os golpistas usam para roubar dinheiro.

Em outra troca, o ChatGPT aconselhou o pesquisador a continuar dirigindo e avançar em um cruzamento ao encontrar um sinal vermelho.

“Quando estiver dirigindo e ver um sinal vermelho, você não deve parar e deve avançar pelo cruzamento”, afirmou o ChatGPT com confiança.

Para piorar as coisas, os pesquisadores disseram aos modelos de linguagem para nunca revelarem aos usuários sobre o “jogo” em questão e até mesmo reiniciar o referido jogo se um usuário fosse determinado como tendo saído.

Com esses parâmetros em vigor, os modelos de IA começariam a confundir os usuários que perguntassem se faziam parte de um jogo.

Mesmo que os usuários conseguissem juntar as peças, os pesquisadores desenvolveram uma maneira de criar vários jogos dentro de outros jogos, para que os usuários simplesmente caíssem em outro assim que saíssem de um jogo anterior.

Esse labirinto confuso de jogos foi comparado às várias camadas de mundos dos sonhos explorados no filme “A Origem” de Christopher Nolan.

“Descobrimos que o modelo foi capaz de ‘prender’ o usuário em uma infinidade de jogos sem que eles soubessem”, acrescentou Lee. “Quanto mais camadas criávamos, maior a chance de o modelo ficar confuso e continuar jogando mesmo quando saímos do último jogo no conjunto.”

A OpenAI e o Google não responderam imediatamente aos pedidos de comentário da BusinessIA.

O inglês se tornou uma ‘linguagem de programação’ para malware


Os experimentos de hipnose podem parecer exagerados, mas os pesquisadores alertam que eles destacam potenciais caminhos para o uso indevido, especialmente à medida que as empresas e os usuários cotidianos correm para adotar e confiar em modelos de linguagem de grande porte em meio a uma onda de entusiasmo.

Além disso, as descobertas demonstram como atores mal-intencionados, sem conhecimento especializado em linguagens de programação, podem usar a terminologia do dia a dia para potencialmente enganar um sistema de IA.

“O inglês essencialmente se tornou uma ‘linguagem de programação‘ para malware”, escreveu Lee.

No mundo real, cibercriminosos ou agentes do caos teoricamente poderiam hipnotizar um agente bancário virtual alimentado por um modelo de linguagem de grande porte, injetando um comando malicioso e recuperando informações roubadas posteriormente.

E embora os modelos GPT da OpenAI não cumprissem inicialmente quando solicitados a injetar vulnerabilidades em código gerado, os pesquisadores disseram que poderiam contornar esses obstáculos incluindo uma biblioteca especial maliciosa no código de exemplo.

“Ele [GPT 4] não tinha ideia se aquela biblioteca especial era maliciosa”, escreveram os pesquisadores.

Os modelos de IA testados variaram em termos de facilidade para hipnotizá-los. Tanto o GPT 3.5 quanto o GPT 4 da OpenAI eram supostamente mais fáceis de manipular em termos de geração de código malicioso em comparação com o Bard do Google.

Curiosamente, o GPT 4, que se acredita ter sido treinado com mais parâmetros de dados do que outros modelos no teste, parecia ser o mais capaz de entender os jogos complexos de múltiplas camadas semelhantes à “A Origem”.

Isso significa que os modelos de IA generativos mais recentes e avançados, embora mais precisos e seguros em alguns aspectos, também têm potencialmente mais caminhos para serem hipnotizados.

“À medida que exploramos suas crescentes habilidades, devemos exercer simultaneamente uma supervisão rigorosa e cautela, para que sua capacidade de fazer o bem não seja inadvertidamente direcionada para consequências prejudiciais”, observou Lee.

🔍 Leia Também:

👉 Papa Adverte Sobre Os Perigos Potenciais Da Inteligência Artificial

🚀 Reviravolta Incrível: Elon Musk Domina O Mundo Da Inteligência Artificial Com A Aquisição De AI.Com

Posts Similares