OpenAI Lança GPTBot de Rastreamento Web e Causa Revolta entre Criadores de Sites!
Sem alarde ou anúncio oficial, a OpenAI, criadora do ChatGPT, lançou um novo bot de rastreamento de sites nesta semana, projetado para escanear o conteúdo de websites a fim de treinar seus grandes modelos de linguagem (LLMs).
Após a notícia sobre o bot se espalhar, uma revolta ocorreu rapidamente com proprietários e criadores de sites trocando dicas sobre como bloquear o GPTBot e evitar que ele raspe os dados de seus sites.
Bloqueando o GPTBot e a Proteção de Sites
Quando a OpenAI adicionou a página de suporte do GPTBot, também introduziu uma maneira de bloquear o serviço de rastreamento de seus sites. Uma pequena modificação no arquivo robots.txt de um site impediria que o conteúdo fosse compartilhado com a OpenAI.
No entanto, devido à extensa raspagem de conteúdo na web, não está claro se simplesmente bloquear o GPTBot será suficiente para impedir completamente a inclusão desse conteúdo nos dados de treinamento dos LLMs.
Coleta Ética de Dados Públicos e Treinamento de IA
Um porta-voz da OpenAI explicou que eles periodicamente coletam dados públicos da internet, que podem ser usados para melhorar as capacidades, precisão e segurança de modelos futuros.
Eles fornecem instruções em seu site sobre como proibir o bot de coleta de acessar um site. Páginas da web são filtradas para remover fontes com paywalls, aquelas que coletam informações de identificação pessoal (PII) ou contêm texto que viola suas políticas.
Defesas dos Sites e Estratégias de Bloqueio
Diversos veículos de notícias na web, como The Verge, já adicionaram o sinal robots.txt para impedir que o modelo da OpenAI capture conteúdo para adicionar aos LLMs. Casey Newton perguntou aos leitores de sua newsletter substack, a Platformer, se ele deveria impedir a OpenAI de coletar seu conteúdo.
Neil Clarke, editor da revista de ficção científica Clarkesworld, anunciou no X (anteriormente conhecido como Twitter) que bloquearia o GPTBot.
Relacionados:
🔍 O Xeque-Mate Da Apple: Revolucionando A IA E Desafiando A OpenAI Da Microsoft
👉 Papa Adverte Sobre Os Perigos Potenciais Da Inteligência Artificial
🚀 Reviravolta Incrível: Elon Musk Domina O Mundo Da Inteligência Artificial Com A Aquisição De AI.Com
Ética e Parcerias no Jornalismo AI
Logo após o lançamento do GPTBot se tornar público, a OpenAI anunciou uma parceria de $395,000 com o Instituto de Jornalismo Arthur L. Carter da Universidade de Nova York.
Liderada pelo ex-editor-chefe da Reuters, Stephen Adler, a Iniciativa de Ética e Jornalismo da NYU visa ajudar os alunos a desenvolver maneiras responsáveis de aproveitar a IA no jornalismo.
Reflexões sobre a Justiça na Raspagem de Dados da Web
Ainda que um controle maior sobre quem pode usar o conteúdo na internet seja útil, ainda não está claro quão eficaz é simplesmente bloquear o GPTBot para evitar que os LLMs absorvam conteúdo não protegido por paywalls.
LLMs e outras plataformas de IA generativas já utilizaram enormes conjuntos de dados públicos para treinar os conjuntos de dados que eles usam atualmente.
Desafios Legais e Considerações de Privacidade
O debate sobre a raspagem de dados publicamente acessíveis da web permanece em tribunais. O Circuito Nono dos EUA reafirmou a noção de que a raspagem de dados é uma atividade legal que não viola o Computer Fraud and Abuse Act (CFAA).
No entanto, práticas de raspagem de dados para treinamento de IA têm sido alvo de processos judiciais em vários aspectos.
Caminhando para um Ecossistema de IA Ético
À medida que a IA continua a evoluir, o rastreamento web ético e o treinamento responsável são fundamentais. A OpenAI, juntamente com outras instituições, enfrenta o desafio de equilibrar a inovação tecnológica com as preocupações éticas e legais.
À medida que a IA se torna cada vez mais presente na vida diária, é importante que desenvolvedores, jornalistas e outros usuários da internet considerem seriamente os riscos da degradação ética no setor. Desenvolver um ecossistema de IA éticamente consciente é fundamental para proteger todos na web nos dias de hoje.
Eu sou o Denis Possi, apaixonado por inteligência artificial e fascinado pelas maravilhas da tecnologia. Sempre em busca de inovações, dedico-me a entender e compartilhar as transformações que a IA pode trazer para nossas vidas. Vem comigo e descubra o que o futuro nos reserva!