Jaap Arriens/NurPhoto vía Getty Images

OpenAI, creador de ChatGPT, ha lanzado un nuevo rastreador web, llamado GPTBot, junto con instrucciones sobre cómo bloquearlo.

ChatGPT es uno de los sistemas de inteligencia artificial más capaces jamás construidos, a pesar de informes recientes sobre su inteligencia vacilante. OpenAI, la empresa detrás del chatbot de IA, continúa entrenando sus modelos de lenguajes grandes (LLM), como GPT-3.5 y GPT-4.

También: ChatGPT recibirá una gran cantidad de actualizaciones esta semana. Esto es lo que necesitas saber

Las empresas de inteligencia artificial también utilizan los rastreadores web, utilizados por motores de búsqueda como Google y Bing para escanear sitios web e indexar contenido, para capacitar a los LLM. Estos modelos aprenden del contenido de los sitios web y de cualquier otro dato con el que sus desarrolladores elijan entrenarlos. El uso de un rastreador web acelera este proceso al permitir que los LLM se capaciten con cantidades masivas de datos.

“Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad”, señala OpenAI en su documentación de GPTBot. La compañía afirma que está filtrando páginas web que requieren acceso a un muro de pago, recopilan información de identificación personal y tienen textos que violan las políticas de OpenAI.

Los desarrolladores tienen la opción de impedir que GPTBot acceda a sus sitios y utilice su información para entrenar sistemas de inteligencia artificial.

OpenAI explica cómo rechazar o personalizar el acceso de GPTBot a su sitio.

Captura de pantalla: OpenAI | Composición de imagen: María Díaz/

Para impedir que GPTBot acceda a un sitio por completo, el propietario del sitio puede agregar el token GPTBot al archivo robots.txt del sitio y “Disallow: /”.

OpenAI también permite a los usuarios personalizar el acceso de GPTBot permitiéndole rastrear solo ciertas partes de su sitio. Para impedir que GPTBot acceda a partes de un sitio web, agregue GPTBot al archivo robots.txt del sitio y “Allow: /directory-1/” y “Disallow: /directory-2/” y personalícelo según sea necesario.

Además: Nvidia potencia su 'superchip' Grace-Hopper con memoria más rápida para IA

OpenAI no había anunciado previamente el uso de rastreadores web para entrenar GPT-3.5, el LLM detrás de la versión gratuita de ChatGPT, o GPT-4, su LLM más nuevo disponible para los suscriptores de ChatGPT Plus y que impulsa Bing AI.

Aunque no está claro si GPTBot se utilizó para capacitar a los LLM de OpenAI actualmente disponibles, podría ser el rastreador web que entrena a GPT-5, especialmente porque la compañía presentó la solicitud de registro del nombre en julio. Si bien OpenAI no ha anunciado una fecha de lanzamiento para GPT-5, se espera que el nuevo LLM sea más potente y más grande que GPT-4, que es actualmente el LLM más grande disponible.

También: Los robots de IA pronto podrían convertirse en su nuevo agente de servicio al cliente

Desde el lanzamiento de ChatGPT, OpenAI se ha visto afectada por varias demandas que alegan que la herramienta de inteligencia artificial está robando datos de los usuarios, incluido un caso de infracción de derechos de autor que convirtió a la empresa en blanco de una investigación de la FTC. Sitios web como Stack Overflow, Reddit y Twitter han dicho que planean comenzar a cobrar a las empresas de inteligencia artificial por acceder a sus datos.