OpenAI opera 3 crawlers diferentes con propósitos distintos y robots.txt controls independientes — GPTBot (entrenamiento de modelos), OAI-SearchBot (retrieval real-time para ChatGPT search) y ChatGPT-User (fetch on-demand cuando el usuario pide acciones). La decisión correcta para una PYME B2B en 2026: permitir OAI-SearchBot y ChatGPT-User (te hacen visible en ChatGPT) y decidir GPTBot según política sobre training. Bloquear los tres juntos por desinformación es el error más común y caro que vemos en audits.
Los tres crawlers de OpenAI — qué hace cada uno
OpenAI publica documentación oficial en developers.openai.com/api/docs/bots desde finales de 2024 separando claramente los tres User-Agents. Aquí lo relevante para tu PYME B2B:
1) GPTBot — el crawler de entrenamiento
| User-Agent | GPTBot |
| Propósito | Recolectar contenido público para entrenamiento de modelos GPT-4, GPT-4o, futuros modelos |
| Frecuencia crawl | Periódica (no diaria) — entrena modelos en ciclos de meses |
| Si lo bloqueas | OpenAI no usa tu contenido para training. NO afecta visibilidad en ChatGPT search. |
| Documentación oficial | platform.openai.com/docs/bots/overview-of-openai-crawlers |
2) OAI-SearchBot — el crawler de retrieval real-time
| User-Agent | OAI-SearchBot |
| Propósito | Indexar y recuperar contenido en tiempo real para responder en ChatGPT con web search activada |
| Frecuencia crawl | Frecuente y dirigida — necesita mantener índices actualizados |
| Si lo bloqueas | Desapareces de las respuestas ChatGPT search. El modelo no puede citarte ni siquiera con tu contenido en su corpus base. |
| Documentación oficial | Same overview |
3) ChatGPT-User — fetch on-demand
| User-Agent | ChatGPT-User |
| Propósito | Cuando un usuario pide directamente a ChatGPT que visite una URL o realice una acción (ej: "lee esta página", "resume este link"), ChatGPT envía este crawler |
| Frecuencia crawl | Bajo demanda del usuario, no programada |
| Si lo bloqueas | El usuario que pide a ChatGPT analizar tu URL recibe error. Pierdes oportunidad de ser fuente directa de respuesta. |
El error más común — bloquear los tres "por seguridad"
El patrón que vemos en audits de PYME B2B españolas: robots.txt con un bloque masivo:
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
Razón típica que dan: "para que la IA no nos copie el contenido". Lo que realmente consiguen: desaparecer de ChatGPT search. Cuando un comprador B2B pregunta a ChatGPT "¿quién hace [tu servicio] en España?", tu empresa no puede aparecer porque OAI-SearchBot está bloqueado. Tus competidores que dejaron OAI-SearchBot abierto aparecen y ganan ese lead.
Es la misma confusión que en 2018 mucha gente bloqueaba googlebot "para que Google no rastreara información sensible" — y se preguntaba después por qué no rankeaban. Los User-Agents tienen propósitos específicos; no son una entidad monolítica.
La política recomendada 2026 para PYME B2B
Si tu objetivo es maximizar visibilidad en ChatGPT (parte significativa del descubrimiento B2B en 2026), la configuración correcta es:
# Permitir retrieval real-time para que ChatGPT cite tu site
User-agent: OAI-SearchBot
Allow: /
# Permitir fetch on-demand cuando un usuario pide analizar tu URL
User-agent: ChatGPT-User
Allow: /
# Decisión política sobre training — depende de tu postura
# Opción A: permitir training (tu contenido educa el modelo base)
User-agent: GPTBot
Allow: /
# Opción B: bloquear training pero permitir search (postura más restrictiva)
# User-agent: GPTBot
# Disallow: /
La decisión Opción A vs Opción B depende de tu postura sobre licensing y contenido propietario. Para PYME B2B típica en España: Opción A es razonable. Tu contenido público ya está en Google y en miles de sites cacheados; el incremento marginal de bloquear GPTBot es bajo y el coste (que el modelo base no te conozca cuando el corpus se actualiza) es alto.
Tier 1+2 ALLOW catalog — el resto de crawlers IA relevantes 2026
OAI-SearchBot no es el único crawler IA que importa para B2B en 2026. La política completa "Tier 1+2 ALLOW" que recomendamos para PYME B2B incluye estos User-Agents permitidos:
| User-Agent | Operador | Para qué |
GPTBot | OpenAI | Training modelos GPT |
OAI-SearchBot | OpenAI | ChatGPT search retrieval |
ChatGPT-User | OpenAI | Fetch on-demand del usuario |
ClaudeBot | Anthropic | Crawling para Claude |
anthropic-ai | Anthropic | Variante histórica |
PerplexityBot | Perplexity | Crawling para Perplexity |
Google-Extended | Google | Training Gemini + Bard |
GoogleOther | Google | Crawls misceláneos Google |
Applebot-Extended | Apple | Training Apple Intelligence |
Amazonbot | Amazon | Alexa + AI products |
FacebookBot | Meta | Meta AI training |
CCBot | Common Crawl | Dataset usado por múltiples LLMs |
cohere-ai | Cohere | Crawling para modelos Cohere |
El razonamiento: cada uno de estos User-Agents corresponde a un motor que puede citar tu site en respuesta a queries B2B reales. Bloquearlos sin distinguir uno por uno te excluye de superficies de descubrimiento que existen.
Tier 3 BLOCK — el caso especial Bytespider
Hay un User-Agent que sí recomendamos bloquear por defecto en PYME B2B española:
User-agent: Bytespider
Disallow: /
Bytespider es el crawler de ByteDance (TikTok / Doubao). Razones del bloqueo: (1) volume de crawl agresivo documentado que consume CPU servidor sin valor de retorno claro, (2) ausencia de respuesta clara a opt-out previo, (3) ningún caso de uso B2B español donde aparecer en superficies ByteDance compense el coste de servidor. Recheck en 12 meses por si cambia el contexto.
Cómo verificar que tu robots.txt está bien configurado
Tres validaciones rápidas que puedes hacer hoy:
Validación 1: leer tu propio robots.txt
Visita https://tudominio.com/robots.txt en navegador. Si ves Disallow: / sin user-agent específico encima, todos los bots están bloqueados a todo el site. Crisis inmediata.
Validación 2: tester de Google Search Console
En Google Search Console hay un robots.txt tester. Mete user-agents específicos (Googlebot, GPTBot, etc) contra URLs concretas y comprueba allow/disallow.
Validación 3: curl simulation
Desde terminal:
curl -A "OAI-SearchBot" https://tudominio.com/blog/algun-post -I
curl -A "PerplexityBot" https://tudominio.com -I
curl -A "GPTBot" https://tudominio.com/contact -I
Si devuelven 200 OK + headers normales, los crawlers pueden acceder. Si devuelven 403 o redirige a página de bot challenge (Cloudflare), están bloqueados a nivel WAF — distinto a robots.txt y más restrictivo.
Robots.txt no es suficiente — Cloudflare y otros WAFs
Una capa adicional que mucha PYME B2B no audita: las soluciones de WAF como Cloudflare, Akamai, Sucuri pueden estar bloqueando crawlers IA a nivel red antes de que el robots.txt sea siquiera consultado.
Casos vistos en audits PYME B2B España 2026:
- Cloudflare "Bot Fight Mode" activado por defecto, bloquea OAI-SearchBot con CAPTCHA challenge → el bot no puede pasar y tu site cae del índice de ChatGPT
- WAF custom rules bloqueando User-Agents que contengan "bot" o "AI" sin excepciones específicas
- Rate limiting agresivo (50 req/min por IP) que descarta crawlers con muestreo amplio
Fix: en Cloudflare, ir a Security → Bots → "Verified Bots" y verificar que los User-Agents IA principales están en allowlist explícita. Hacer fetch tests cross-User-Agent semanalmente como parte del monitoreo SEO técnico.
Caso real — PYME B2B SaaS B2B España, mayo 2026
Cliente real (anonimizado). PYME SaaS B2B, €3M ARR, sector HR-tech. Audit inicial Citora mayo 2026.
Punto de partida:
- Visibility Score: 12/100 — "Invisible"
- Robots.txt: bloqueando GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended con
Disallow: /
- Cloudflare Bot Fight Mode ON, sin allowlist explícito
- Razón histórica (contada por CTO): "lo activamos en 2024 porque pensábamos que la IA nos copiaba contenido"
Cambios ejecutados en 1 sesión técnica (2h):
- Reescritura robots.txt con Tier 1+2 ALLOW catalog
- Cloudflare → Verified Bots allowlist con 13 User-Agents IA principales
- Curl tests cross-user-agent verificando 200 OK en home + blog + landing comercial
Resultado tras 6 semanas (re-audit mismo set queries):
- Visibility Score: 31/100 — "Pre-emergente" → "Conocido en su nicho" borderline
- Apariciones en ChatGPT search: 0 → 12 sobre 30 queries (40%)
- Apariciones en Perplexity: 0 → 18 sobre 30 queries (60%)
- Apariciones en Claude: 0 → 7 sobre 30 queries (23%)
El "fix" más caro que estaba haciendo este cliente no era falta de contenido — era estar invisible a los crawlers por bloqueo defensivo equivocado. 2 horas técnicas, +19 puntos visibility en 6 semanas. ROI infinito.
Preguntas frecuentes
¿Si dejo OAI-SearchBot abierto, OpenAI puede usar mi contenido para entrenar modelos?
No directamente. OAI-SearchBot está separado de GPTBot. OAI-SearchBot indexa para retrieval real-time en ChatGPT search; GPTBot recolecta datos para training del modelo base. Puedes permitir uno y bloquear el otro independientemente en robots.txt. Si tu preocupación es training pero quieres aparecer en ChatGPT search: permite OAI-SearchBot + bloquea GPTBot.
¿Bloquear GPTBot tiene algún impacto en ranking Google?
No. GPTBot es independiente de Googlebot. Bloquear GPTBot no afecta Google Search rankings. Si quieres también bloquear training Google: el User-Agent es Google-Extended, también independiente de Googlebot.
¿Cuál es la diferencia entre OAI-SearchBot y SearchGPT?
SearchGPT fue el nombre temprano del proyecto. La feature está integrada hoy en ChatGPT directamente como "search" toggle dentro de la interfaz. OAI-SearchBot es el crawler que alimenta esa feature. No son cosas distintas — son capas del mismo producto.
¿Si mi site es de pago/membership, qué hago con los crawlers?
Permitir crawl de páginas públicas (home, about, blog, contenido demo gratuito) y bloquear las páginas detrás de paywall. Modelo "two-tier delivery" emergente en publishers (The Economist, FT) y aplicable a PYME B2B con whitepapers gated: versión completa gated para usuario + versión abreviada / abstract público accesible a crawlers IA.
¿Cuándo conviene NO permitir crawlers IA?
Casos limitados específicos: (1) contenido propietario crítico no público (documentación interna que se sirve por error en URLs públicas — pero la fix es no servirla, no bloquear crawlers), (2) sites con dataset original que se monetiza por licensing exclusivo (en cuyo caso bloquear training pero permitir search puede tener sentido), (3) decisión estratégica de marca antiAI (raros casos justificados). Para 99% de PYME B2B en España la respuesta es: permitir crawlers, no bloquear.
El siguiente paso
Si nunca has auditado tu robots.txt o tu WAF contra crawlers IA, es muy probable que tengas alguna configuración bloqueando descubrimiento sin que lo sepas. El audit gratuito de citora.es/audit incluye una verificación automática de qué crawlers IA acceden a tu site y cuáles están bloqueados — lo ves en ~3 minutos sin obligación.
Si quieres ejecutar el rediseño técnico completo (robots.txt + WAF + schema + entidad + contenido answer-first) con un equipo que conoce los detalles de cada crawler IA, pricing público €1.500/mes × 4 meses con garantía canónica. Si en 4 meses la IA no te recomienda cuando preguntan por tu sector, te devolvemos el último mes y trabajamos uno más sin coste.