Alerta Na Web! OpenAI Lança GPTBot De Rastreamento E Causa Revolta Entre Criadores De Sites!"

Sem alarde ou anúncio oficial, a OpenAI, criadora do ChatGPT, lançou um novo bot de rastreamento de sites nesta semana, projetado para escanear o conteúdo de websites a fim de treinar seus grandes modelos de linguagem (LLMs).

Após a notícia sobre o bot se espalhar, uma revolta ocorreu rapidamente com proprietários e criadores de sites trocando dicas sobre como bloquear o GPTBot e evitar que ele raspe os dados de seus sites.

Bloqueando o GPTBot e a Proteção de Sites

Quando a OpenAI adicionou a página de suporte do GPTBot, também introduziu uma maneira de bloquear o serviço de rastreamento de seus sites. Uma pequena modificação no arquivo robots.txt de um site impediria que o conteúdo fosse compartilhado com a OpenAI.

No entanto, devido à extensa raspagem de conteúdo na web, não está claro se simplesmente bloquear o GPTBot será suficiente para impedir completamente a inclusão desse conteúdo nos dados de treinamento dos LLMs.

Coleta Ética de Dados Públicos e Treinamento de IA

Um porta-voz da OpenAI explicou que eles periodicamente coletam dados públicos da internet, que podem ser usados para melhorar as capacidades, precisão e segurança de modelos futuros.

Eles fornecem instruções em seu site sobre como proibir o bot de coleta de acessar um site. Páginas da web são filtradas para remover fontes com paywalls, aquelas que coletam informações de identificação pessoal (PII) ou contêm texto que viola suas políticas.

Defesas dos Sites e Estratégias de Bloqueio

Diversos veículos de notícias na web, como The Verge, já adicionaram o sinal robots.txt para impedir que o modelo da OpenAI capture conteúdo para adicionar aos LLMs. Casey Newton perguntou aos leitores de sua newsletter substack, a Platformer, se ele deveria impedir a OpenAI de coletar seu conteúdo.

Neil Clarke, editor da revista de ficção científica Clarkesworld, anunciou no X (anteriormente conhecido como Twitter) que bloquearia o GPTBot.

Relacionados:

🔍 O Xeque-Mate Da Apple: Revolucionando A IA E Desafiando A OpenAI Da Microsoft

👉 Papa Adverte Sobre Os Perigos Potenciais Da Inteligência Artificial

🚀 Reviravolta Incrível: Elon Musk Domina O Mundo Da Inteligência Artificial Com A Aquisição De AI.Com

Ética e Parcerias no Jornalismo AI

Logo após o lançamento do GPTBot se tornar público, a OpenAI anunciou uma parceria de $395,000 com o Instituto de Jornalismo Arthur L. Carter da Universidade de Nova York.

Liderada pelo ex-editor-chefe da Reuters, Stephen Adler, a Iniciativa de Ética e Jornalismo da NYU visa ajudar os alunos a desenvolver maneiras responsáveis de aproveitar a IA no jornalismo.

Reflexões sobre a Justiça na Raspagem de Dados da Web

Ainda que um controle maior sobre quem pode usar o conteúdo na internet seja útil, ainda não está claro quão eficaz é simplesmente bloquear o GPTBot para evitar que os LLMs absorvam conteúdo não protegido por paywalls.

LLMs e outras plataformas de IA generativas já utilizaram enormes conjuntos de dados públicos para treinar os conjuntos de dados que eles usam atualmente.

Desafios Legais e Considerações de Privacidade

O debate sobre a raspagem de dados publicamente acessíveis da web permanece em tribunais. O Circuito Nono dos EUA reafirmou a noção de que a raspagem de dados é uma atividade legal que não viola o Computer Fraud and Abuse Act (CFAA).

No entanto, práticas de raspagem de dados para treinamento de IA têm sido alvo de processos judiciais em vários aspectos.

Caminhando para um Ecossistema de IA Ético

À medida que a IA continua a evoluir, o rastreamento web ético e o treinamento responsável são fundamentais. A OpenAI, juntamente com outras instituições, enfrenta o desafio de equilibrar a inovação tecnológica com as preocupações éticas e legais.

À medida que a IA se torna cada vez mais presente na vida diária, é importante que desenvolvedores, jornalistas e outros usuários da internet considerem seriamente os riscos da degradação ética no setor. Desenvolver um ecossistema de IA éticamente consciente é fundamental para proteger todos na web nos dias de hoje.

Denis Possi

Eu sou o Denis Possi, apaixonado por inteligência artificial e fascinado pelas maravilhas da tecnologia. Sempre em busca de inovações, dedico-me a entender e compartilhar as transformações que a IA pode trazer para nossas vidas. Vem comigo e descubra o que o futuro nos reserva!

OpenAI Lança GPTBot de Rastreamento Web e Causa Revolta entre Criadores de Sites!

Bloqueando o GPTBot e a Proteção de Sites

Coleta Ética de Dados Públicos e Treinamento de IA

Defesas dos Sites e Estratégias de Bloqueio

Ética e Parcerias no Jornalismo AI

Reflexões sobre a Justiça na Raspagem de Dados da Web

Desafios Legais e Considerações de Privacidade

Caminhando para um Ecossistema de IA Ético

A Era da Transformação de IA na Disney: Revolucionando o Entretenimento e Além

O Xeque-Mate da Apple na IA: Revolucionando a Indústria e Desafiando a OpenAI da Microsoft

Amazon Apresenta Titan: Uma Nova Era na Geração de Imagens com Inteligência Artificial

Descubra como funciona a busca de IA generativa

Apple Inova com Lançamento do Framework MLX para IA

Como usar o Bing Image Creator [Guia Completo]

Bloqueando o GPTBot e a Proteção de Sites

Coleta Ética de Dados Públicos e Treinamento de IA

Defesas dos Sites e Estratégias de Bloqueio

Ética e Parcerias no Jornalismo AI

Reflexões sobre a Justiça na Raspagem de Dados da Web

Desafios Legais e Considerações de Privacidade

Caminhando para um Ecossistema de IA Ético

Posts Similares

Siga-Nos