Saltar al contenido
Citora
GEO25 de mayo de 202612 min de lectura

Cómo funcionan Perplexity y ChatGPT por dentro: lo que revela la demanda de Reddit contra Perplexity

La demanda de Reddit contra Perplexity (octubre 2025) destapa la mecánica real de cómo los LLMs obtienen información en tiempo real: scraping vía proxies, SERP APIs y arquitecturas RAG opacas. Te explico el pipeline completo y qué implica para tu visibilidad B2B.

Perplexity y ChatGPT (con search activada) no "saben" cosas — recuperan información en tiempo real desde la web vía una arquitectura RAG (Retrieval Augmented Generation). El proceso técnico expuesto públicamente por la demanda de Reddit Inc. vs Perplexity AI (octubre 2025) muestra que combinan tres canales: (1) APIs de búsqueda comerciales tipo SerpApi, (2) scraping directo con proxies residenciales tipo Oxylabs/AWMProxy, y (3) fuentes licenciadas vía acuerdos comerciales. Si tu empresa B2B no aparece en estas capas, no apareces en las respuestas.

Lo que la demanda Reddit vs Perplexity nos enseñó

El 22 de octubre de 2025, Reddit Inc. presentó una demanda federal en el Distrito Sur de Nueva York contra Perplexity AI, SerpApi, Oxylabs y AWMProxy. La acusación: scraping no autorizado del contenido de Reddit usando una cadena de intermediarios diseñada para evadir bloqueos técnicos.

Independientemente del resultado legal (todavía abierto en mayo 2026), la complaint es una de las fuentes documentadas más detalladas que existen públicamente sobre cómo un motor de búsqueda generativo obtiene contenido en tiempo real. Para PYMES B2B que intentan entender por qué aparecen o no en LLMs, vale la pena leerla con calma.

Tres revelaciones operativas relevantes para GEO:

  1. Perplexity no scrapea directamente Reddit (Reddit lo había bloqueado por User-Agent). En su lugar, presuntamente paga a SerpApi (que vende resultados de Google) y a Oxylabs/AWMProxy (que ofrecen pools de proxies residenciales para scraping cross-site).
  2. El contenido de Reddit pasa por 2-3 intermediarios antes de llegar al modelo de Perplexity. Cada intermediario añade latencia y, según Reddit, ofusca el origen del scraping.
  3. El experimento que demostró la mecánica: un usuario publicó en Reddit un post con contenido único e identificable, marcado como "Google-only" en robots.txt. Pocas horas después, ese contenido aparecía citado por Perplexity. Imposible sin scraping vía intermediario.

El pipeline real de un motor RAG (Perplexity, ChatGPT search, Claude con tools)

Combinando la complaint, la documentación pública de Perplexity Sonar API, y el comportamiento observable en GPT-4o/o1 con browsing, este es el pipeline típico para una query del usuario:

PasoQué pasaDónde se decide tu visibilidad
1. Query parsingEl modelo descompone la pregunta en sub-queriesNo depende de ti
2. Source retrievalLlama APIs (SerpApi, Bing, Google Search API si comprada) + scrapingSí — necesitas estar en SERPs Google/Bing
3. Content fetchingDescarga 5-15 URLs candidatas y extrae texto principalSí — robots.txt, redirects, paywalls importan
4. RerankingModelo evalúa relevancia + autoridad de cada fuenteSí — autoridad dominio, fecha, densidad factual
5. SynthesisGenera respuesta combinando fuentes top + cita explícitamenteSí — claridad answer-first del texto
6. Citation renderingMuestra footnotes con URLs y snippetsSí — title, meta description, favicon

De los 6 pasos, 5 dependen activamente del estado de tu sitio web y tu presencia digital. Lo que llamamos "GEO" en Citora es exactamente la optimización de los pasos 2-6.

Paso 2 — Source retrieval: por qué SEO clásico sigue importando

Aunque vivimos un cambio de paradigma, los motores RAG dependen masivamente de APIs de búsqueda tradicional para identificar candidatos. Si no estás indexado en Google + Bing + Yandex y rankeas decentemente, no entras en el set de URLs que el LLM evalúa.

Datos relevantes: Perplexity Sonar API documentation declara que utiliza "multiple search providers" sin especificar — la complaint de Reddit identifica al menos SerpApi como uno de ellos. ChatGPT con search activada usa Bing como motor primario (acuerdo OpenAI-Microsoft). Claude con tools depende del proveedor que configure cada implementación (Anthropic API permite custom search tools).

Conclusión operativa B2B: si tu PYME no aparece en al menos top 30 de Google + top 30 de Bing para tus queries B2B clave, los LLMs ni siquiera te evalúan. La indexación clásica sigue siendo el prerequisito.

Paso 3 — Content fetching: las fricciones técnicas que te excluyen

Cuando el LLM intenta descargar tu página, una serie de problemas técnicos comunes hacen que la fetch falle silenciosamente y tu URL caiga del set candidato:

  • robots.txt bloqueando OAI-SearchBot, PerplexityBot o ClaudeBot — más común de lo que parece. Muchos templates WordPress vienen con Disallow agresivo. Resultado: el LLM no puede leer ni el texto principal y sólo ve metadata. Caes.
  • JavaScript rendering necesario — si tu contenido principal se carga client-side (React, Next.js mal configurado, Vue, Angular), muchos crawlers de LLM no ejecutan JS. Lo que ven es un <div id="root"></div> vacío.
  • Paywalls y access walls — contenido detrás de email gate o suscripción no se indexa. Si quieres aparecer en respuestas RAG, considera publicar versiones reducidas accesibles públicamente.
  • Cloudflare anti-bot agresivo — challenge pages que devuelven 403 a User-Agents identificados como bots de LLM. Caso documentado por Glenn Gabe en mayo 2026: Cloudflare estaba rompiendo "citation jump-to-text" links.
  • Tiempos de respuesta >3 segundos — los crawlers RAG tienen timeouts agresivos (típicamente 1-3s). Si tu TTFB es alto, te caes.

Una vez el LLM tiene 5-15 fuentes candidatas, las reordena por relevancia y "calidad percibida". Aquí entra el modelo de autoridad que es la mayor diferencia con SEO clásico.

En SEO clásico, autoridad ≈ PageRank ≈ links entrantes. En GEO, autoridad es más difusa y se construye con:

  • Domain rating técnico (heredado parcial del SEO)
  • Recencia del contenido — datePublished + dateModified explícitos vía schema importan
  • Densidad factual — el modelo prefiere texto con cifras concretas, fechas, nombres específicos vs prosa vaga
  • Consistencia con corpus de entrenamiento — si tu marca ya aparece en el corpus base (Wikipedia, Wikidata, prensa pre-cutoff), tu autoridad runtime sube
  • Match estructural con la query — heading que reformula la pregunta, párrafo answer-first inmediatamente debajo

Paso 5 — Synthesis: la mecánica del answer-first

Cuando el modelo está generando la respuesta, lee los chunks recuperados y selecciona qué citar. Los chunks más citables comparten patrones:

  • Respuesta directa en el primer párrafo (no introducción que retrasa)
  • Cifras con fuente explícita en la misma frase
  • Listas estructuradas que el modelo puede extraer como bullets
  • Tablas con datos comparativos verificables
  • Conclusiones explícitas con verbos de acción ("hazlo así", "el orden correcto es", "el dato real es")

Patrón que pierde citas: párrafos largos sin estructura, oraciones subordinadas que diluyen la afirmación principal, contenido que sólo sintetiza al final.

Paso 6 — Citation rendering: cómo te ven los usuarios cuando te citan

Cuando Perplexity o ChatGPT te citan, muestran tu URL + un snippet automático + favicon. Tres elementos visuales bajo tu control:

  • Title tag — Perplexity la usa literal en muchas citas. Optimizar como SERP, no como "branding".
  • Meta description — fallback de snippet si el modelo no extrae texto del cuerpo. Sigue siendo relevante.
  • Favicon — primera impresión visual. PYMES B2B con favicon pixelado o genérico pierden trust signal vs competidores con favicon limpio.

Implicaciones prácticas para tu PYME B2B

El enfoque GEO que se deriva de entender este pipeline no es "hacks". Es trabajo técnico-editorial sostenido en 6 frentes:

  1. Indexación clásica sólida en Google + Bing (paso 2 del pipeline)
  2. Crawl-readiness técnica: robots.txt allow LLM bots, contenido server-side rendered, sin paywalls duros, TTFB < 1,5s (paso 3)
  3. Autoridad de entidad consolidada vía Wikidata + menciones externas (paso 4)
  4. Contenido answer-first con densidad factual alta (pasos 4-5)
  5. Title + meta + favicon tratados como SERP en lugar de branding decorativo (paso 6)
  6. Schema JSON-LD donde mueve aguja (especialmente Google AIO — ver post anterior sobre la paradoja Otterly)

Lo que probablemente va a cambiar en 2026-2027

La demanda Reddit vs Perplexity acelera un cambio estructural. Tres movimientos previsibles:

  • Más acuerdos de licensing — Reddit ya firmó con Google ($60M anuales según prensa) y OpenAI. Otros sitios de gran volumen (Stack Overflow, Quora, foros B2B verticales) seguirán. Resultado: dos tiers de fuentes en LLMs — licenciadas (acceso garantizado) y scrapeadas (acceso frágil).
  • Más bloqueo agresivo via Cloudflare/anti-bot — webs editoriales y B2B con contenido propietario van a invertir en bloqueo. Para una PYME B2B esto es oportunidad: si los grandes bloquean y tú dejas abierto, tu contenido relativo gana peso.
  • Más identificación clara de User-Agents — OpenAI ya separó GPTBot (training) de OAI-SearchBot (retrieval real-time). Decisión que cada PYME debe tomar consciente: qué bots permito, cuáles bloqueo.

Preguntas frecuentes

¿Perplexity me scrapea aunque bloquee su User-Agent?

Posiblemente sí, según la complaint de Reddit. Perplexity habría usado intermediarios (SerpApi, Oxylabs, AWMProxy) para acceder a contenido bloqueado para su User-Agent oficial. Si quieres bloqueo efectivo: bloquear pools de IPs residenciales conocidos + Cloudflare Bot Fight Mode + verificación humana en contenido crítico. La complaint señala que esto eleva costes de scraping ~10×.

¿Si dejo abierto OAI-SearchBot, OpenAI entrena con mi contenido?

No directamente. OAI-SearchBot está separado de GPTBot. OAI-SearchBot indexa para retrieval real-time en ChatGPT search; GPTBot recolecta datos para training del modelo base. Puedes permitir uno y bloquear el otro independientemente en robots.txt. Documentación oficial OpenAI lo confirma.

¿Cuánto cuesta optimizar el pipeline RAG para mi PYME?

Diagnóstico técnico inicial (auditoría crawl-readiness, schema, robots.txt, autoridad entidad): 8-15h una vez. Optimización ejecutiva (re-config robots, schema implementation, content rewriting answer-first): 20-40h en 4-8 semanas. Si lo subcontratas: pricing público Citora desde €1.500/mes × 4 meses con garantía canónica.

¿Funciona esto sólo en inglés o también en español?

Funciona en ambos. La mayor diferencia: el corpus de entrenamiento de los LLMs principales está sesgado hacia inglés (~80% del corpus según múltiples papers académicos), pero la capa de retrieval real-time funciona idéntico en español si tu contenido está indexado en Google/Bing en ES. Para B2B España es la palanca operativa que te permite competir aunque no tengas presupuesto para producir en inglés también.

¿La demanda Reddit vs Perplexity puede llevar a que Perplexity cierre?

Improbable cierre por esta demanda específica, pero sí restricciones operativas. Resultado más probable: settlement con licencia de pago o injunction parcial. Independientemente del resultado legal, el pipeline expuesto por la complaint es educación técnica valiosa.

El siguiente paso

Si has llegado hasta aquí entendiendo cómo funcionan Perplexity y ChatGPT por dentro, ya estás por delante del 95% de CMOs B2B españoles que siguen tratando GEO como "una variante de SEO". El audit gratuito en citora.es/audit te mide qué pasa cuando un usuario te busca en los 4 LLMs principales — datos reales, 0% hipótesis, ~3 minutos de espera.

Y si quieres atacar las 6 palancas del pipeline con un equipo que ha hecho esto antes, hablamos en 30 minutos. Pricing público: €1.500/mes × 4 meses con garantía canónica. Si en 4 meses la IA no te recomienda cuando preguntan por tu sector, te devolvemos el último mes y trabajamos uno más sin coste.

¿Tu negocio aparece en ChatGPT?

Descubre tu Visibility Score en 2 minutos. Gratuito, sin tarjeta.

Hacer mi audit gratis

Más artículos

Audit gratis →