Noticias

Amazon investiga a Perplexity AI por acusaciones de raspado de contenidos sin permiso

Créditos: TecnoAp21

Amazon Web Services (AWS) ha iniciado una investigación sobre Perplexity AI tras acusaciones de que su rastreador ignora las restricciones del Protocolo de Exclusión de Robots. Ya que Perplexity ha estado accediendo a sitios web sin respetar las instrucciones de robots.txt.

Amazon Web Services ha comenzado una investigación para determinar si Perplexity AI está incumpliendo sus normas de uso. Según Wired, AWS está examinando las acusaciones de que el servicio de Perplexity AI, alojado en sus servidores, utiliza un rastreador que ignora el Protocolo de Exclusión de Robots. Este protocolo es un estándar web en el que los desarrolladores usan el archivo robots.txt para indicar a los bots qué páginas pueden o no acceder. Aunque el cumplimiento es voluntario, los rastreadores de empresas reputadas suelen respetarlo desde los años 90.

Wired informó previamente que detectó una máquina virtual que ignoraba las instrucciones de robots.txt en su sitio web, hospedada en un servidor de AWS con la dirección IP 44.221.181.252, operada por Perplexity. La máquina visitó repetidamente otras propiedades de Condé Nast, como The Guardian, Forbes y The New York Times, para raspar contenido durante los últimos tres meses. Para verificar si Perplexity realmente estaba raspando su contenido, Wired introdujo titulares o descripciones cortas de sus artículos en el chatbot de la compañía, que luego respondió con resultados que parafraseaban sus artículos con atribución mínima.

Un informe reciente de Reuters señaló que Perplexity no es la única empresa de IA que pasa por alto los archivos robots.txt para recopilar contenido usado en el entrenamiento de modelos de lenguaje grandes. Sin embargo, Wired solo informó a Amazon sobre el rastreador de Perplexity AI. AWS declaró que sus términos de servicio prohíben actividades abusivas e ilegales y que sus clientes deben cumplir con estos términos. AWS también agregó que investiga rutinariamente informes de abuso de sus recursos.

Sara Platnick, portavoz de Perplexity, negó que sus rastreadores estén ignorando el Protocolo de Exclusión de Robots. Afirmó que el PerplexityBot, que se ejecuta en AWS, respeta robots.txt y que los servicios controlados por Perplexity no violan los Términos de Servicio de AWS. Platnick añadió que Amazon investiga la información proporcionada por Wired como parte de su protocolo estándar. Sin embargo, reconoció que el PerplexityBot puede ignorar robots.txt si un usuario incluye una URL específica en su consulta al chatbot.

Aravind Srinivas, CEO de Perplexity, también negó anteriormente que su empresa ignorara el Protocolo de Exclusión de Robots. Admitió que Perplexity utiliza rastreadores web de terceros y que el bot identificado por Wired era uno de ellos. Srinivas aseguró que la compañía está trabajando para mejorar la atribución de fuentes y resolver estos problemas.

Forbes, uno de los medios afectados, ha decidido tomar acciones legales contra Perplexity AI por replicar sus artículos sin la debida atribución. John Paczkowski, editor ejecutivo de Forbes, criticó a Perplexity por no dar crédito adecuado a su contenido y afirmó que la empresa ha estado «robando artículos» de varios medios, incluyendo CNBC y Bloomberg.

Este caso subraya las complejidades éticas y legales del uso de IA para recopilar y reutilizar contenido web, resaltando la importancia de respetar las normas establecidas para proteger los derechos de los creadores de contenido.


Descubre más desde TecnoAp21

Suscríbete y recibe las últimas entradas en tu correo electrónico.

1 respuesta »

Deja un comentario