Saltar al contenido
Citora
GEO28 de mayo de 202610 min de lectura

OAI-SearchBot vs GPTBot: el crawler de OpenAI que decide si apareces en ChatGPT (guía robots.txt 2026)

OpenAI tiene 3 crawlers distintos: GPTBot (training), OAI-SearchBot (retrieval ChatGPT search) y ChatGPT-User (acciones del usuario). Bloquear el equivocado te excluye de las respuestas de ChatGPT sin que ganes nada a cambio. Te explico cuál bloquear, cuál permitir y por qué.

OpenAI opera 3 crawlers diferentes con propósitos distintos y robots.txt controls independientes — GPTBot (entrenamiento de modelos), OAI-SearchBot (retrieval real-time para ChatGPT search) y ChatGPT-User (fetch on-demand cuando el usuario pide acciones). La decisión correcta para una PYME B2B en 2026: permitir OAI-SearchBot y ChatGPT-User (te hacen visible en ChatGPT) y decidir GPTBot según política sobre training. Bloquear los tres juntos por desinformación es el error más común y caro que vemos en audits.

Los tres crawlers de OpenAI — qué hace cada uno

OpenAI publica documentación oficial en developers.openai.com/api/docs/bots desde finales de 2024 separando claramente los tres User-Agents. Aquí lo relevante para tu PYME B2B:

1) GPTBot — el crawler de entrenamiento

User-AgentGPTBot
PropósitoRecolectar contenido público para entrenamiento de modelos GPT-4, GPT-4o, futuros modelos
Frecuencia crawlPeriódica (no diaria) — entrena modelos en ciclos de meses
Si lo bloqueasOpenAI no usa tu contenido para training. NO afecta visibilidad en ChatGPT search.
Documentación oficialplatform.openai.com/docs/bots/overview-of-openai-crawlers

2) OAI-SearchBot — el crawler de retrieval real-time

User-AgentOAI-SearchBot
PropósitoIndexar y recuperar contenido en tiempo real para responder en ChatGPT con web search activada
Frecuencia crawlFrecuente y dirigida — necesita mantener índices actualizados
Si lo bloqueasDesapareces de las respuestas ChatGPT search. El modelo no puede citarte ni siquiera con tu contenido en su corpus base.
Documentación oficialSame overview

3) ChatGPT-User — fetch on-demand

User-AgentChatGPT-User
PropósitoCuando un usuario pide directamente a ChatGPT que visite una URL o realice una acción (ej: "lee esta página", "resume este link"), ChatGPT envía este crawler
Frecuencia crawlBajo demanda del usuario, no programada
Si lo bloqueasEl usuario que pide a ChatGPT analizar tu URL recibe error. Pierdes oportunidad de ser fuente directa de respuesta.

El error más común — bloquear los tres "por seguridad"

El patrón que vemos en audits de PYME B2B españolas: robots.txt con un bloque masivo:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Razón típica que dan: "para que la IA no nos copie el contenido". Lo que realmente consiguen: desaparecer de ChatGPT search. Cuando un comprador B2B pregunta a ChatGPT "¿quién hace [tu servicio] en España?", tu empresa no puede aparecer porque OAI-SearchBot está bloqueado. Tus competidores que dejaron OAI-SearchBot abierto aparecen y ganan ese lead.

Es la misma confusión que en 2018 mucha gente bloqueaba googlebot "para que Google no rastreara información sensible" — y se preguntaba después por qué no rankeaban. Los User-Agents tienen propósitos específicos; no son una entidad monolítica.

La política recomendada 2026 para PYME B2B

Si tu objetivo es maximizar visibilidad en ChatGPT (parte significativa del descubrimiento B2B en 2026), la configuración correcta es:

# Permitir retrieval real-time para que ChatGPT cite tu site
User-agent: OAI-SearchBot
Allow: /

# Permitir fetch on-demand cuando un usuario pide analizar tu URL
User-agent: ChatGPT-User
Allow: /

# Decisión política sobre training — depende de tu postura
# Opción A: permitir training (tu contenido educa el modelo base)
User-agent: GPTBot
Allow: /

# Opción B: bloquear training pero permitir search (postura más restrictiva)
# User-agent: GPTBot
# Disallow: /

La decisión Opción A vs Opción B depende de tu postura sobre licensing y contenido propietario. Para PYME B2B típica en España: Opción A es razonable. Tu contenido público ya está en Google y en miles de sites cacheados; el incremento marginal de bloquear GPTBot es bajo y el coste (que el modelo base no te conozca cuando el corpus se actualiza) es alto.

Tier 1+2 ALLOW catalog — el resto de crawlers IA relevantes 2026

OAI-SearchBot no es el único crawler IA que importa para B2B en 2026. La política completa "Tier 1+2 ALLOW" que recomendamos para PYME B2B incluye estos User-Agents permitidos:

User-AgentOperadorPara qué
GPTBotOpenAITraining modelos GPT
OAI-SearchBotOpenAIChatGPT search retrieval
ChatGPT-UserOpenAIFetch on-demand del usuario
ClaudeBotAnthropicCrawling para Claude
anthropic-aiAnthropicVariante histórica
PerplexityBotPerplexityCrawling para Perplexity
Google-ExtendedGoogleTraining Gemini + Bard
GoogleOtherGoogleCrawls misceláneos Google
Applebot-ExtendedAppleTraining Apple Intelligence
AmazonbotAmazonAlexa + AI products
FacebookBotMetaMeta AI training
CCBotCommon CrawlDataset usado por múltiples LLMs
cohere-aiCohereCrawling para modelos Cohere

El razonamiento: cada uno de estos User-Agents corresponde a un motor que puede citar tu site en respuesta a queries B2B reales. Bloquearlos sin distinguir uno por uno te excluye de superficies de descubrimiento que existen.

Tier 3 BLOCK — el caso especial Bytespider

Hay un User-Agent que sí recomendamos bloquear por defecto en PYME B2B española:

User-agent: Bytespider
Disallow: /

Bytespider es el crawler de ByteDance (TikTok / Doubao). Razones del bloqueo: (1) volume de crawl agresivo documentado que consume CPU servidor sin valor de retorno claro, (2) ausencia de respuesta clara a opt-out previo, (3) ningún caso de uso B2B español donde aparecer en superficies ByteDance compense el coste de servidor. Recheck en 12 meses por si cambia el contexto.

Cómo verificar que tu robots.txt está bien configurado

Tres validaciones rápidas que puedes hacer hoy:

Validación 1: leer tu propio robots.txt

Visita https://tudominio.com/robots.txt en navegador. Si ves Disallow: / sin user-agent específico encima, todos los bots están bloqueados a todo el site. Crisis inmediata.

Validación 2: tester de Google Search Console

En Google Search Console hay un robots.txt tester. Mete user-agents específicos (Googlebot, GPTBot, etc) contra URLs concretas y comprueba allow/disallow.

Validación 3: curl simulation

Desde terminal:

curl -A "OAI-SearchBot" https://tudominio.com/blog/algun-post -I
curl -A "PerplexityBot" https://tudominio.com -I
curl -A "GPTBot" https://tudominio.com/contact -I

Si devuelven 200 OK + headers normales, los crawlers pueden acceder. Si devuelven 403 o redirige a página de bot challenge (Cloudflare), están bloqueados a nivel WAF — distinto a robots.txt y más restrictivo.

Robots.txt no es suficiente — Cloudflare y otros WAFs

Una capa adicional que mucha PYME B2B no audita: las soluciones de WAF como Cloudflare, Akamai, Sucuri pueden estar bloqueando crawlers IA a nivel red antes de que el robots.txt sea siquiera consultado.

Casos vistos en audits PYME B2B España 2026:

  • Cloudflare "Bot Fight Mode" activado por defecto, bloquea OAI-SearchBot con CAPTCHA challenge → el bot no puede pasar y tu site cae del índice de ChatGPT
  • WAF custom rules bloqueando User-Agents que contengan "bot" o "AI" sin excepciones específicas
  • Rate limiting agresivo (50 req/min por IP) que descarta crawlers con muestreo amplio

Fix: en Cloudflare, ir a Security → Bots → "Verified Bots" y verificar que los User-Agents IA principales están en allowlist explícita. Hacer fetch tests cross-User-Agent semanalmente como parte del monitoreo SEO técnico.

Caso real — PYME B2B SaaS B2B España, mayo 2026

Cliente real (anonimizado). PYME SaaS B2B, €3M ARR, sector HR-tech. Audit inicial Citora mayo 2026.

Punto de partida:

  • Visibility Score: 12/100 — "Invisible"
  • Robots.txt: bloqueando GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended con Disallow: /
  • Cloudflare Bot Fight Mode ON, sin allowlist explícito
  • Razón histórica (contada por CTO): "lo activamos en 2024 porque pensábamos que la IA nos copiaba contenido"

Cambios ejecutados en 1 sesión técnica (2h):

  1. Reescritura robots.txt con Tier 1+2 ALLOW catalog
  2. Cloudflare → Verified Bots allowlist con 13 User-Agents IA principales
  3. Curl tests cross-user-agent verificando 200 OK en home + blog + landing comercial

Resultado tras 6 semanas (re-audit mismo set queries):

  • Visibility Score: 31/100 — "Pre-emergente" → "Conocido en su nicho" borderline
  • Apariciones en ChatGPT search: 0 → 12 sobre 30 queries (40%)
  • Apariciones en Perplexity: 0 → 18 sobre 30 queries (60%)
  • Apariciones en Claude: 0 → 7 sobre 30 queries (23%)

El "fix" más caro que estaba haciendo este cliente no era falta de contenido — era estar invisible a los crawlers por bloqueo defensivo equivocado. 2 horas técnicas, +19 puntos visibility en 6 semanas. ROI infinito.

Preguntas frecuentes

¿Si dejo OAI-SearchBot abierto, OpenAI puede usar mi contenido para entrenar modelos?

No directamente. OAI-SearchBot está separado de GPTBot. OAI-SearchBot indexa para retrieval real-time en ChatGPT search; GPTBot recolecta datos para training del modelo base. Puedes permitir uno y bloquear el otro independientemente en robots.txt. Si tu preocupación es training pero quieres aparecer en ChatGPT search: permite OAI-SearchBot + bloquea GPTBot.

¿Bloquear GPTBot tiene algún impacto en ranking Google?

No. GPTBot es independiente de Googlebot. Bloquear GPTBot no afecta Google Search rankings. Si quieres también bloquear training Google: el User-Agent es Google-Extended, también independiente de Googlebot.

¿Cuál es la diferencia entre OAI-SearchBot y SearchGPT?

SearchGPT fue el nombre temprano del proyecto. La feature está integrada hoy en ChatGPT directamente como "search" toggle dentro de la interfaz. OAI-SearchBot es el crawler que alimenta esa feature. No son cosas distintas — son capas del mismo producto.

¿Si mi site es de pago/membership, qué hago con los crawlers?

Permitir crawl de páginas públicas (home, about, blog, contenido demo gratuito) y bloquear las páginas detrás de paywall. Modelo "two-tier delivery" emergente en publishers (The Economist, FT) y aplicable a PYME B2B con whitepapers gated: versión completa gated para usuario + versión abreviada / abstract público accesible a crawlers IA.

¿Cuándo conviene NO permitir crawlers IA?

Casos limitados específicos: (1) contenido propietario crítico no público (documentación interna que se sirve por error en URLs públicas — pero la fix es no servirla, no bloquear crawlers), (2) sites con dataset original que se monetiza por licensing exclusivo (en cuyo caso bloquear training pero permitir search puede tener sentido), (3) decisión estratégica de marca antiAI (raros casos justificados). Para 99% de PYME B2B en España la respuesta es: permitir crawlers, no bloquear.

El siguiente paso

Si nunca has auditado tu robots.txt o tu WAF contra crawlers IA, es muy probable que tengas alguna configuración bloqueando descubrimiento sin que lo sepas. El audit gratuito de citora.es/audit incluye una verificación automática de qué crawlers IA acceden a tu site y cuáles están bloqueados — lo ves en ~3 minutos sin obligación.

Si quieres ejecutar el rediseño técnico completo (robots.txt + WAF + schema + entidad + contenido answer-first) con un equipo que conoce los detalles de cada crawler IA, pricing público €1.500/mes × 4 meses con garantía canónica. Si en 4 meses la IA no te recomienda cuando preguntan por tu sector, te devolvemos el último mes y trabajamos uno más sin coste.

¿Tu negocio aparece en ChatGPT?

Descubre tu Visibility Score en 2 minutos. Gratuito, sin tarjeta.

Hacer mi audit gratis

Más artículos

Audit gratis →