Perplexidade acusada de raspar sites que bloquearam explicitamente a REI raspando

A startup de IA Perplexity está rastejando e eliminando o conteúdo de sites que indicaram explicitamente que não querem ser raspados, de acordo com o fornecedor de infraestrutura da Internet Cloudflare. Na segunda -feira, a CloudFlare publicou pesquisas dizendo que observou a startup da IA ignorar os blocos e ocultar suas atividades de rastejamento e raspagem. A gigante da infraestrutura de rede acusou a perplexidade de obscurecer sua identidade ao tentar raspar as páginas da web “na tentativa de contornar as preferências do site”, escreveram os pesquisadores da Cloudflare. Os produtos de IA como os oferecidos pela perplexidade dependem de grandes quantidades de dados da Internet, e as startups de IA têm texto, imagens e vídeos há muito tempo, sem permissão para fazer seus produtos funcionarem. Nos últimos tempos, os sites tentaram revidar usando o arquivo robots.txt padrão da web, que informa aos mecanismos de pesquisa e empresas de IA que podem ser indexadas e que não deveriam, os esforços que viram resultados mistos até agora. A perplexidade parece estar voluntariamente contornando esses blocos, alterando o “agente do usuário” de seus bots, o que significa um sinal que identifica um visitante do site pelo seu dispositivo e tipo de versão, além de alterar suas redes de sistemas autônomos, ou ASN, essencialmente um número que identifica grandes redes na Internet, de acordo com o Cloudflare. “Essa atividade foi observada em dezenas de milhares de domínios e milhões de solicitações por dia. Conseguimos impressão digital esse rastreador usando uma combinação de aprendizado de máquina e sinais de rede”, leu a postagem do Cloudflare. O porta -voz da Perplexity, Jesse Dwyer, descartou a postagem do blog da Cloudflare como um “discurso de vendas”, adicionando um email ao TechCrunch que as capturas de tela do post “mostram que nenhum conteúdo foi acessado”. Em um e-mail de acompanhamento, Dwyer reivindicou o bot mencionado no blog Cloudflare “não é nosso”. A Cloudflare disse que primeiro notou o comportamento depois que seus clientes se queixaram de que a perplexidade estava rastejando e raspando seus sites, mesmo depois de adicionar regras ao arquivo de robôs e para bloquear especificamente os bots conhecidos da perplexidade. Cloudflare disse que realizou testes para verificar e confirmou que a perplexidade estava contornando esses blocos. Evento do TechCrunch São Francisco | 27-29 de outubro de 2025 “Observamos que a perplexidade usa não apenas seu agente de usuário declarado, mas também um navegador genérico destinado a se passar pelo Google Chrome no macOS quando seu rastreador declarado foi bloqueado”, de acordo com o Cloudflare. A empresa também disse que listou os bots da Perplexity de sua lista verificada e adicionou novas técnicas para bloqueá-las. A Cloudflare assumiu recentemente uma posição pública contra os rastreadores da AI. No mês passado, a Cloudflare anunciou o lançamento de um mercado, permitindo que os proprietários e editores de sites cobrem os raspadores da IA que visitam seus sites. O executivo -chefe da Cloudflare, Matthew Prince, soou o alarme na época, dizendo que a AI está quebrando o modelo de negócios da Internet, particularmente os editores. No ano passado, a CloudFlare também lançou uma ferramenta gratuita para impedir que os bots raspassem sites para treinar a IA. Esta não é a primeira vez que a perplexidade é acusada de raspar sem autorização. No ano passado, meios de comunicação, como Wired, alegavam que a perplexidade estava plagiando seu conteúdo. Semanas depois, o CEO da Perplexity, Aravind Srinivas, não conseguiu responder imediatamente quando solicitado a fornecer a definição de plágio da empresa durante uma entrevista à Devin Colcewey da TechCrunch na conferência Disrupt 2024.

Fonte

Publicar comentário

Você pode ter perdido