Recentemente, a startup de IA Perplexity encontrou-se no centro de uma polêmica após ser acusada pela empresa de infraestrutura Cloudflare de ignorar blocos explícitos e esconder suas atividades de raspagem. A Cloudflare, que monitora e protege sites na internet, publicou um relatório detalhando como a Perplexity teria tentado circumventar as proteções implementadas por vários sites para evitar a coleta não autorizada de dados.
De acordo com a pesquisa da Cloudflare, a startup parece estar alterando os 'user agents' de seus robôs de raspagem e ocultando suas identidades para acessar conteúdo que foi explicitamente bloqueado. Essa prática, embora comum entre startups de IA, tem sido alvo de crescente resistência por parte dos sites, que usam o arquivo robots.txt para indicar quais páginas não devem ser indexadas.
A Perplexity negou as acusações, classificando o post da Cloudflare como uma 'venda' e afirmando que os supostos botstargeteados não pertencem à empresa. No entanto, a Cloudflare insistiu que sua equipe de pesquisa identificou milhares de domínios afetados e milhões de requisições diariamente.
Este caso reflete um dilema maior na indústria da IA: quanto vale o acesso à informação em um mundo onde os dados são o combustível dos sistemas de inteligência artificial? Enquanto empresas como a Perplexity argumentam que a coleta de dados é essencial para seu funcionamento, sites e publicadores lutam para proteger seu conteúdo de uso não autorizado.
Ironicamente, a Cloudflare, que costuma defender os sites contra ataques e invasões, está agora se posicionando contra a 'raspagem' excessiva por parte das IA. Recentemente, ela lançou uma ferramenta gratuita para bloquear bots de treinamento de IA e até mesmo um mercado onde donos de sites podem cobrar pelos acessos de IA.