¿Cuál es la diferencia entre GPTBot y OAI-SearchBot?

GPTBot recolecta contenido para entrenar modelos GPT (training, ciclos largos). OAI-SearchBot indexa contenido para retrieval real-time cuando ChatGPT usa search en una respuesta. Son controles independientes en robots.txt. Bloquear GPTBot no afecta visibilidad en ChatGPT search; bloquear OAI-SearchBot sí te excluye.

¿Si dejo OAI-SearchBot abierto, OpenAI usa mi contenido para training?

No directamente. OAI-SearchBot está separado de GPTBot. OAI-SearchBot indexa para retrieval real-time, GPTBot recolecta para training del modelo base. Puedes permitir uno y bloquear el otro independientemente.

¿Qué crawlers IA conviene permitir en una PYME B2B en 2026?

Tier 1+2 ALLOW catalog: GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, PerplexityBot, Google-Extended, GoogleOther, Applebot-Extended, Amazonbot, FacebookBot, CCBot, cohere-ai. Bloquear Bytespider (ByteDance) por crawl agresivo sin retorno B2B claro.

¿Cómo verifico que mi robots.txt está bien configurado para LLMs?

Tres validaciones: (1) leer tudominio.com/robots.txt directamente en navegador, (2) Google Search Console robots.txt tester con User-Agents específicos, (3) curl con flag -A simulando cada User-Agent IA contra páginas críticas (home, blog, landings comerciales).

¿Cloudflare puede bloquear crawlers IA aunque mi robots.txt los permita?

Sí. Cloudflare Bot Fight Mode o WAF rules custom operan a nivel red antes que robots.txt. Casos vistos: Bot Fight Mode bloqueando OAI-SearchBot con CAPTCHA challenge. Fix: Cloudflare → Security → Bots → Verified Bots allowlist explícito con los User-Agents IA principales.

GEO28 de mayo de 202610 min de lectura

OAI-SearchBot vs GPTBot: el crawler que decide ChatGPT (2026)

OpenAI tiene 3 crawlers distintos: GPTBot (training), OAI-SearchBot (retrieval ChatGPT search) y ChatGPT-User (acciones del usuario). Bloquear el equivocado te excluye de las respuestas de ChatGPT sin que ganes nada a cambio. Te explico cuál bloquear, cuál permitir y por qué.

OpenAI opera 3 crawlers diferentes con propósitos distintos y robots.txt controls independientes — GPTBot (entrenamiento de modelos), OAI-SearchBot (retrieval real-time para ChatGPT search) y ChatGPT-User (fetch on-demand cuando el usuario pide acciones). La decisión correcta para una PYME B2B en 2026: permitir OAI-SearchBot y ChatGPT-User (te hacen visible en ChatGPT) y decidir GPTBot según política sobre training. Bloquear los tres juntos por desinformación es el error más común y caro que vemos en audits.

Los tres crawlers de OpenAI — qué hace cada uno

OpenAI publica documentación oficial en developers.openai.com/api/docs/bots desde finales de 2024 separando claramente los tres User-Agents. Aquí lo relevante para tu PYME B2B:

1) GPTBot — el crawler de entrenamiento

User-Agent	`GPTBot`
Propósito	Recolectar contenido público para entrenamiento de modelos GPT-4, GPT-4o, futuros modelos
Frecuencia crawl	Periódica (no diaria) — entrena modelos en ciclos de meses
Si lo bloqueas	OpenAI no usa tu contenido para training. NO afecta visibilidad en ChatGPT search.
Documentación oficial	developers.openai.com/api/docs/bots

2) OAI-SearchBot — el crawler de retrieval real-time

User-Agent	`OAI-SearchBot`
Propósito	Indexar y recuperar contenido en tiempo real para responder en ChatGPT con web search activada
Frecuencia crawl	Frecuente y dirigida — necesita mantener índices actualizados
Si lo bloqueas	Desapareces de las respuestas ChatGPT search. El modelo no puede citarte ni siquiera con tu contenido en su corpus base.
Documentación oficial	Same overview

3) ChatGPT-User — fetch on-demand

User-Agent	`ChatGPT-User`
Propósito	Cuando un usuario pide directamente a ChatGPT que visite una URL o realice una acción (ej: "lee esta página", "resume este link"), ChatGPT envía este crawler
Frecuencia crawl	Bajo demanda del usuario, no programada
Si lo bloqueas	El usuario que pide a ChatGPT analizar tu URL recibe error. Pierdes oportunidad de ser fuente directa de respuesta.

El error más común — bloquear los tres "por seguridad"

El patrón que vemos en audits de PYME B2B españolas: robots.txt con un bloque masivo:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Razón típica que dan: "para que la IA no nos copie el contenido". Lo que realmente consiguen: desaparecer de ChatGPT search. Cuando un comprador B2B pregunta a ChatGPT "¿quién hace [tu servicio] en España?", tu empresa no puede aparecer porque OAI-SearchBot está bloqueado. Tus competidores que dejaron OAI-SearchBot abierto aparecen y ganan ese lead.

Es la misma confusión que en 2018 mucha gente bloqueaba googlebot "para que Google no rastreara información sensible" — y se preguntaba después por qué no rankeaban. Los User-Agents tienen propósitos específicos; no son una entidad monolítica.

La política recomendada 2026 para PYME B2B

Si tu objetivo es maximizar visibilidad en ChatGPT (parte significativa del descubrimiento B2B en 2026), la configuración correcta es:

# Permitir retrieval real-time para que ChatGPT cite tu site
User-agent: OAI-SearchBot
Allow: /

# Permitir fetch on-demand cuando un usuario pide analizar tu URL
User-agent: ChatGPT-User
Allow: /

# Decisión política sobre training — depende de tu postura
# Opción A: permitir training (tu contenido educa el modelo base)
User-agent: GPTBot
Allow: /

# Opción B: bloquear training pero permitir search (postura más restrictiva)
# User-agent: GPTBot
# Disallow: /

La decisión Opción A vs Opción B depende de tu postura sobre licensing y contenido propietario. Para PYME B2B típica en España: Opción A es razonable. Tu contenido público ya está en Google y en miles de sites cacheados; el incremento marginal de bloquear GPTBot es bajo y el coste (que el modelo base no te conozca cuando el corpus se actualiza) es alto.

Tier 1+2 ALLOW catalog — el resto de crawlers IA relevantes 2026

OAI-SearchBot no es el único crawler IA que importa para B2B en 2026. La política completa "Tier 1+2 ALLOW" que recomendamos para PYME B2B incluye estos User-Agents permitidos:

User-Agent	Operador	Para qué
`GPTBot`	OpenAI	Training modelos GPT
`OAI-SearchBot`	OpenAI	ChatGPT search retrieval
`ChatGPT-User`	OpenAI	Fetch on-demand del usuario
`ClaudeBot`	Anthropic	Crawling para Claude
`anthropic-ai`	Anthropic	Variante histórica
`PerplexityBot`	Perplexity	Crawling para Perplexity
`Google-Extended`	Google	Training Gemini + Bard
`GoogleOther`	Google	Crawls misceláneos Google
`Applebot-Extended`	Apple	Training Apple Intelligence
`Amazonbot`	Amazon	Alexa + AI products
`FacebookBot`	Meta	Meta AI training
`CCBot`	Common Crawl	Dataset usado por múltiples LLMs
`cohere-ai`	Cohere	Crawling para modelos Cohere

El razonamiento: cada uno de estos User-Agents corresponde a un motor que puede citar tu site en respuesta a queries B2B reales. Bloquearlos sin distinguir uno por uno te excluye de superficies de descubrimiento que existen.

Tier 3 BLOCK — el caso especial Bytespider

Hay un User-Agent que sí recomendamos bloquear por defecto en PYME B2B española:

User-agent: Bytespider
Disallow: /

Bytespider es el crawler de ByteDance (TikTok / Doubao). Razones del bloqueo: (1) volume de crawl agresivo documentado que consume CPU servidor sin valor de retorno claro, (2) ausencia de respuesta clara a opt-out previo, (3) ningún caso de uso B2B español donde aparecer en superficies ByteDance compense el coste de servidor. Recheck en 12 meses por si cambia el contexto.

Cómo verificar que tu `robots.txt` está bien configurado

Tres validaciones rápidas que puedes hacer hoy:

Validación 1: leer tu propio robots.txt

Visita https://tudominio.com/robots.txt en navegador. Si ves Disallow: / sin user-agent específico encima, todos los bots están bloqueados a todo el site. Crisis inmediata.

Validación 2: tester de Google Search Console

En Google Search Console hay un robots.txt tester. Mete user-agents específicos (Googlebot, GPTBot, etc) contra URLs concretas y comprueba allow/disallow.

Validación 3: curl simulation

Desde terminal:

curl -A "OAI-SearchBot" https://tudominio.com/blog/algun-post -I
curl -A "PerplexityBot" https://tudominio.com -I
curl -A "GPTBot" https://tudominio.com/contact -I

Si devuelven 200 OK + headers normales, los crawlers pueden acceder. Si devuelven 403 o redirige a página de bot challenge (Cloudflare), están bloqueados a nivel WAF — distinto a robots.txt y más restrictivo.

Robots.txt no es suficiente — Cloudflare y otros WAFs

Una capa adicional que mucha PYME B2B no audita: las soluciones de WAF como Cloudflare, Akamai, Sucuri pueden estar bloqueando crawlers IA a nivel red antes de que el robots.txt sea siquiera consultado.

Casos vistos en audits PYME B2B España 2026:

Cloudflare "Bot Fight Mode" activado por defecto, bloquea OAI-SearchBot con CAPTCHA challenge → el bot no puede pasar y tu site cae del índice de ChatGPT
WAF custom rules bloqueando User-Agents que contengan "bot" o "AI" sin excepciones específicas
Rate limiting agresivo (50 req/min por IP) que descarta crawlers con muestreo amplio

Fix: en Cloudflare, ir a Security → Bots → "Verified Bots" y verificar que los User-Agents IA principales están en allowlist explícita. Hacer fetch tests cross-User-Agent semanalmente como parte del monitoreo SEO técnico.

Caso real — PYME B2B SaaS B2B España, mayo 2026

Cliente real (anonimizado). PYME SaaS B2B, €3M ARR, sector HR-tech. Audit inicial Citora mayo 2026.

Punto de partida:

Visibility Score: 12/100 — "Invisible"
Robots.txt: bloqueando GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended con Disallow: /
Cloudflare Bot Fight Mode ON, sin allowlist explícito
Razón histórica (contada por CTO): "lo activamos en 2024 porque pensábamos que la IA nos copiaba contenido"

Cambios ejecutados en 1 sesión técnica (2h):

Reescritura robots.txt con Tier 1+2 ALLOW catalog
Cloudflare → Verified Bots allowlist con 13 User-Agents IA principales
Curl tests cross-user-agent verificando 200 OK en home + blog + landing comercial

Resultado tras 6 semanas (re-audit mismo set queries):

Visibility Score: 31/100 — "Pre-emergente" → "Conocido en su nicho" borderline
Apariciones en ChatGPT search: 0 → 12 sobre 30 queries (40%)
Apariciones en Perplexity: 0 → 18 sobre 30 queries (60%)
Apariciones en Claude: 0 → 7 sobre 30 queries (23%)

El "fix" más caro que estaba haciendo este cliente no era falta de contenido — era estar invisible a los crawlers por bloqueo defensivo equivocado. 2 horas técnicas, +19 puntos visibility en 6 semanas. ROI infinito.

Preguntas frecuentes

¿Si dejo OAI-SearchBot abierto, OpenAI puede usar mi contenido para entrenar modelos?

No directamente. OAI-SearchBot está separado de GPTBot. OAI-SearchBot indexa para retrieval real-time en ChatGPT search; GPTBot recolecta datos para training del modelo base. Puedes permitir uno y bloquear el otro independientemente en robots.txt. Si tu preocupación es training pero quieres aparecer en ChatGPT search: permite OAI-SearchBot + bloquea GPTBot.

¿Bloquear GPTBot tiene algún impacto en ranking Google?

No. GPTBot es independiente de Googlebot. Bloquear GPTBot no afecta Google Search rankings. Si quieres también bloquear training Google: el User-Agent es Google-Extended, también independiente de Googlebot.

¿Cuál es la diferencia entre OAI-SearchBot y SearchGPT?

SearchGPT fue el nombre temprano del proyecto. La feature está integrada hoy en ChatGPT directamente como "search" toggle dentro de la interfaz. OAI-SearchBot es el crawler que alimenta esa feature. No son cosas distintas — son capas del mismo producto.

¿Si mi site es de pago/membership, qué hago con los crawlers?

Permitir crawl de páginas públicas (home, about, blog, contenido demo gratuito) y bloquear las páginas detrás de paywall. Modelo "two-tier delivery" emergente en publishers (The Economist, FT) y aplicable a PYME B2B con whitepapers gated: versión completa gated para usuario + versión abreviada / abstract público accesible a crawlers IA.

¿Cuándo conviene NO permitir crawlers IA?

Casos limitados específicos: (1) contenido propietario crítico no público (documentación interna que se sirve por error en URLs públicas — pero la fix es no servirla, no bloquear crawlers), (2) sites con dataset original que se monetiza por licensing exclusivo (en cuyo caso bloquear training pero permitir search puede tener sentido), (3) decisión estratégica de marca antiAI (raros casos justificados). Para 99% de PYME B2B en España la respuesta es: permitir crawlers, no bloquear.

El siguiente paso

Si nunca has auditado tu robots.txt o tu WAF contra crawlers IA, es muy probable que tengas alguna configuración bloqueando descubrimiento sin que lo sepas. El audit gratuito de citora.es/audit incluye una verificación automática de qué crawlers IA acceden a tu site y cuáles están bloqueados — lo ves en ~3 minutos sin obligación.

Si quieres ejecutar el rediseño técnico completo (robots.txt + WAF + schema + entidad + contenido answer-first) con un equipo que conoce los detalles de cada crawler IA, pricing público desde €1.500/mes (compromiso 4 meses).

Lecturas relacionadas

Si quieres profundizar en piezas relacionadas con este tema: Comparativa B2B 4 LLMs (ChatGPT, Gemini, Claude, Perplexity), Cómo funcionan ChatGPT y Perplexity por dentro (demanda Reddit), OpenAI quema dinero: por qué diversificar multi-LLM.

¿Tu negocio aparece en ChatGPT?

Descubre tu Visibility Score en 2 minutos. Gratuito, sin tarjeta.

Hacer mi audit gratis

¿Prefieres ir al grano? Servicios y precios · GEO para tu sector

Más artículos

Estrategia8 min

Google actualiza su guía oficial de "cómo contratar un SEO" y añade avisos sobre herramientas de terceros: qué significa para tu PYME

Google acaba de actualizar su documentación oficial "¿Necesitas un SEO?" con menciones a la optimización para IA generativa, y ha creado una página nueva con avisos específicos sobre el uso de herramientas SEO de terceros. Cuando Google se molesta en documentar oficialmente cómo elegir ayuda y de qué desconfiar, conviene leerlo. Análisis Citora de qué cambia para una PYME B2B que evalúa agencias o herramientas de visibilidad IA.

Leer

Técnico8 min

Millones de sites publican llms.txt sin saberlo: el plugin AIOSEO (3M+ instalaciones WordPress) lo crea automáticamente

Mayo 2026: el plugin AIOSEO (3M+ instalaciones activas en WordPress) introdujo auto-creación de llms.txt + archivos markdown ON BY DEFAULT. Millones de sites están publicando llms.txt sin que sus owners lo sepan. Análisis Citora: qué implica esto para los LLMs (¿ruido masivo o señal útil?), por qué tu PYME B2B NO debería preocuparse por aparecer aquí, y qué SÍ debes auditar en tu site WordPress esta semana.

Leer

Métricas11 min

100 millones de data points + 13 estudios: el mega benchmark AI search que reescribe los datos canónicos

ViperChill publicó en mayo 2026 el mega benchmark más grande hasta la fecha sobre AI search: 100M+ data points, 13 estudios cruzados, 8 autores. Análisis Citora del documento + las 7 cifras más relevantes para PYME B2B + por qué algunas contradicen lo que se vendía hasta ahora.

Leer

OAI-SearchBot vs GPTBot: el crawler que decide ChatGPT (2026)

Los tres crawlers de OpenAI — qué hace cada uno

1) GPTBot — el crawler de entrenamiento

2) OAI-SearchBot — el crawler de retrieval real-time

3) ChatGPT-User — fetch on-demand

El error más común — bloquear los tres "por seguridad"

La política recomendada 2026 para PYME B2B

Tier 1+2 ALLOW catalog — el resto de crawlers IA relevantes 2026

Tier 3 BLOCK — el caso especial Bytespider

Cómo verificar que tu robots.txt está bien configurado

Validación 1: leer tu propio robots.txt

Validación 2: tester de Google Search Console

Validación 3: curl simulation

Robots.txt no es suficiente — Cloudflare y otros WAFs

Caso real — PYME B2B SaaS B2B España, mayo 2026

Preguntas frecuentes

¿Si dejo OAI-SearchBot abierto, OpenAI puede usar mi contenido para entrenar modelos?

¿Bloquear GPTBot tiene algún impacto en ranking Google?

¿Cuál es la diferencia entre OAI-SearchBot y SearchGPT?

¿Si mi site es de pago/membership, qué hago con los crawlers?

¿Cuándo conviene NO permitir crawlers IA?

El siguiente paso

Lecturas relacionadas

¿Tu negocio aparece en ChatGPT?

Más artículos

Google actualiza su guía oficial de "cómo contratar un SEO" y añade avisos sobre herramientas de terceros: qué significa para tu PYME

Millones de sites publican llms.txt sin saberlo: el plugin AIOSEO (3M+ instalaciones WordPress) lo crea automáticamente

100 millones de data points + 13 estudios: el mega benchmark AI search que reescribe los datos canónicos

Este sitio usa cookies

Cómo verificar que tu `robots.txt` está bien configurado