¿Cómo obtiene información Perplexity en tiempo real?

Perplexity combina tres canales según la documentación expuesta por la demanda Reddit vs Perplexity AI (octubre 2025): APIs de búsqueda comerciales (SerpApi confirmada), scraping vía proxies residenciales (Oxylabs y AWMProxy presuntamente) y fuentes licenciadas vía acuerdos comerciales. Después aplica reranking y synthesis con su modelo Sonar.

¿Sigue siendo importante el SEO clásico en la era LLM?

Sí, como prerequisito. Los motores RAG (Perplexity, ChatGPT search) usan APIs de búsqueda tradicional para identificar candidatos. Si una PYME no aparece en al menos top 30 de Google + Bing para sus queries B2B clave, los LLMs ni siquiera la evalúan en la fase de reranking.

¿Cuánto cuesta optimizar mi PYME para el pipeline RAG completo?

Diagnóstico inicial: 8-15h una vez. Optimización ejecutiva: 20-40h en 4-8 semanas. Subcontratado: pricing público desde €1.500/mes durante 4 meses.

GEO25 de mayo de 202612 min de lectura

Cómo funcionan Perplexity y ChatGPT por dentro (demanda Reddit)

La demanda de Reddit contra Perplexity (octubre 2025) destapa la mecánica real de cómo los LLMs obtienen información en tiempo real: scraping vía proxies, SERP APIs y arquitecturas RAG opacas. Te explico el pipeline completo y qué implica para tu visibilidad B2B.

Perplexity y ChatGPT (con search activada) no "saben" cosas — recuperan información en tiempo real desde la web vía una arquitectura RAG (Retrieval Augmented Generation). El proceso técnico expuesto públicamente por la demanda de Reddit Inc. vs Perplexity AI (octubre 2025) muestra que combinan tres canales: (1) APIs de búsqueda comerciales tipo SerpApi, (2) scraping directo con proxies residenciales tipo Oxylabs/AWMProxy, y (3) fuentes licenciadas vía acuerdos comerciales. Si tu empresa B2B no aparece en estas capas, no apareces en las respuestas.

Lo que la demanda Reddit vs Perplexity nos enseñó

El 22 de octubre de 2025, Reddit Inc. presentó una demanda federal en el Distrito Sur de Nueva York contra Perplexity AI, SerpApi, Oxylabs y AWMProxy. El filing fue cubierto por Reuters, The Verge y otros medios B2B tech especializados en octubre 2025. La acusación: scraping no autorizado del contenido de Reddit usando una cadena de intermediarios diseñada para evadir bloqueos técnicos.

Independientemente del resultado legal (todavía abierto en mayo 2026), la complaint es una de las fuentes documentadas más detalladas que existen públicamente sobre cómo un motor de búsqueda generativo obtiene contenido en tiempo real. El docket federal está accesible vía PACER (búsqueda del caso Reddit Inc. v. Perplexity AI Inc. et al, SDNY). Para PYMES B2B que intentan entender por qué aparecen o no en LLMs, vale la pena leerla con calma.

Tres revelaciones operativas relevantes para GEO:

Perplexity no scrapea directamente Reddit (Reddit lo había bloqueado por User-Agent). En su lugar, presuntamente paga a SerpApi (que vende resultados de Google) y a Oxylabs/AWMProxy (que ofrecen pools de proxies residenciales para scraping cross-site).
El contenido de Reddit pasa por 2-3 intermediarios antes de llegar al modelo de Perplexity. Cada intermediario añade latencia y, según Reddit, ofusca el origen del scraping.
El experimento que demostró la mecánica: un usuario publicó en Reddit un post con contenido único e identificable, marcado como "Google-only" en robots.txt. Pocas horas después, ese contenido aparecía citado por Perplexity. Imposible sin scraping vía intermediario.

El pipeline real de un motor RAG (Perplexity, ChatGPT search, Claude con tools)

Combinando la complaint, la documentación pública de Perplexity Sonar API, y el comportamiento observable en GPT-4o/o1 con browsing, este es el pipeline típico para una query del usuario:

Paso	Qué pasa	Dónde se decide tu visibilidad
1. Query parsing	El modelo descompone la pregunta en sub-queries	No depende de ti
2. Source retrieval	Llama APIs (SerpApi, Bing, Google Search API si comprada) + scraping	Sí — necesitas estar en SERPs Google/Bing
3. Content fetching	Descarga 5-15 URLs candidatas y extrae texto principal	Sí — robots.txt, redirects, paywalls importan
4. Reranking	Modelo evalúa relevancia + autoridad de cada fuente	Sí — autoridad dominio, fecha, densidad factual
5. Synthesis	Genera respuesta combinando fuentes top + cita explícitamente	Sí — claridad answer-first del texto
6. Citation rendering	Muestra footnotes con URLs y snippets	Sí — title, meta description, favicon

De los 6 pasos, 5 dependen activamente del estado de tu sitio web y tu presencia digital. Lo que llamamos "GEO" en Citora es exactamente la optimización de los pasos 2-6.

Paso 2 — Source retrieval: por qué SEO clásico sigue importando

Aunque vivimos un cambio de paradigma, los motores RAG dependen masivamente de APIs de búsqueda tradicional para identificar candidatos. Si no estás indexado en Google + Bing + Yandex y rankeas decentemente, no entras en el set de URLs que el LLM evalúa.

Datos relevantes: Perplexity Sonar API documentation declara que utiliza "multiple search providers" sin especificar — la complaint de Reddit identifica al menos SerpApi como uno de ellos. ChatGPT con search activada usa Bing como motor primario (acuerdo OpenAI-Microsoft anunciado en febrero 2023). Claude con tools depende del proveedor que configure cada implementación (Anthropic API permite custom search tools).

Conclusión operativa B2B: si tu PYME no aparece en al menos top 30 de Google + top 30 de Bing para tus queries B2B clave, los LLMs ni siquiera te evalúan. La indexación clásica sigue siendo el prerequisito.

Paso 3 — Content fetching: las fricciones técnicas que te excluyen

Cuando el LLM intenta descargar tu página, una serie de problemas técnicos comunes hacen que la fetch falle silenciosamente y tu URL caiga del set candidato:

robots.txt bloqueando OAI-SearchBot, PerplexityBot o ClaudeBot — más común de lo que parece. Muchos templates WordPress vienen con Disallow agresivo. Resultado: el LLM no puede leer ni el texto principal y sólo ve metadata. Caes.
JavaScript rendering necesario — si tu contenido principal se carga client-side (React, Next.js mal configurado, Vue, Angular), muchos crawlers de LLM no ejecutan JS. Lo que ven es un <div id="root"></div> vacío.
Paywalls y access walls — contenido detrás de email gate o suscripción no se indexa. Si quieres aparecer en respuestas RAG, considera publicar versiones reducidas accesibles públicamente.
Cloudflare anti-bot agresivo — challenge pages que devuelven 403 a User-Agents identificados como bots de LLM. Caso documentado por Glenn Gabe (G-Squared Interactive) en mayo 2026: Cloudflare estaba rompiendo "citation jump-to-text" links.
Tiempos de respuesta >3 segundos — los crawlers RAG tienen timeouts agresivos (típicamente 1-3s). Si tu TTFB es alto, te caes.

Paso 4 — Reranking: la batalla por la autoridad sin links

Una vez el LLM tiene 5-15 fuentes candidatas, las reordena por relevancia y "calidad percibida". Aquí entra el modelo de autoridad que es la mayor diferencia con SEO clásico.

En SEO clásico, autoridad ≈ PageRank ≈ links entrantes. En GEO, autoridad es más difusa y se construye con:

Domain rating técnico (heredado parcial del SEO)
Recencia del contenido — datePublished + dateModified explícitos vía schema importan
Densidad factual — el modelo prefiere texto con cifras concretas, fechas, nombres específicos vs prosa vaga
Consistencia con corpus de entrenamiento — si tu marca ya aparece en el corpus base (Wikipedia, Wikidata, prensa pre-cutoff), tu autoridad runtime sube
Match estructural con la query — heading que reformula la pregunta, párrafo answer-first inmediatamente debajo

Paso 5 — Synthesis: la mecánica del answer-first

Cuando el modelo está generando la respuesta, lee los chunks recuperados y selecciona qué citar. Los chunks más citables comparten patrones:

Respuesta directa en el primer párrafo (no introducción que retrasa)
Cifras con fuente explícita en la misma frase
Listas estructuradas que el modelo puede extraer como bullets
Tablas con datos comparativos verificables
Conclusiones explícitas con verbos de acción ("hazlo así", "el orden correcto es", "el dato real es")

Patrón que pierde citas: párrafos largos sin estructura, oraciones subordinadas que diluyen la afirmación principal, contenido que sólo sintetiza al final.

Paso 6 — Citation rendering: cómo te ven los usuarios cuando te citan

Cuando Perplexity o ChatGPT te citan, muestran tu URL + un snippet automático + favicon. Tres elementos visuales bajo tu control:

Title tag — Perplexity la usa literal en muchas citas. Optimizar como SERP, no como "branding".
Meta description — fallback de snippet si el modelo no extrae texto del cuerpo. Sigue siendo relevante.
Favicon — primera impresión visual. PYMES B2B con favicon pixelado o genérico pierden trust signal vs competidores con favicon limpio.

Implicaciones prácticas para tu PYME B2B

El enfoque GEO que se deriva de entender este pipeline no es "hacks". Es trabajo técnico-editorial sostenido en 6 frentes:

Indexación clásica sólida en Google + Bing (paso 2 del pipeline)
Crawl-readiness técnica: robots.txt allow LLM bots, contenido server-side rendered, sin paywalls duros, TTFB < 1,5s (paso 3)
Autoridad de entidad consolidada vía Wikidata + menciones externas (paso 4)
Contenido answer-first con densidad factual alta (pasos 4-5)
Title + meta + favicon tratados como SERP en lugar de branding decorativo (paso 6)
Schema JSON-LD donde mueve aguja (especialmente Google AIO — ver post anterior sobre la paradoja Otterly)

Lo que probablemente va a cambiar en 2026-2027

La demanda Reddit vs Perplexity acelera un cambio estructural. Tres movimientos previsibles:

Más acuerdos de licensing — Reddit ya firmó con Google ($60M anuales según Bloomberg y Reuters, febrero 2024) y con OpenAI (mayo 2024). Otros sitios de gran volumen (Stack Overflow, Quora, foros B2B verticales) seguirán. Resultado: dos tiers de fuentes en LLMs — licenciadas (acceso garantizado) y scrapeadas (acceso frágil).
Más bloqueo agresivo via Cloudflare/anti-bot — webs editoriales y B2B con contenido propietario van a invertir en bloqueo. Para una PYME B2B esto es oportunidad: si los grandes bloquean y tú dejas abierto, tu contenido relativo gana peso.
Más identificación clara de User-Agents — OpenAI ya separó GPTBot (training) de OAI-SearchBot (retrieval real-time) según su documentación oficial. Decisión que cada PYME debe tomar consciente: qué bots permito, cuáles bloqueo.

Preguntas frecuentes

¿Perplexity me scrapea aunque bloquee su User-Agent?

Posiblemente sí, según la complaint de Reddit. Perplexity habría usado intermediarios (SerpApi, Oxylabs, AWMProxy) para acceder a contenido bloqueado para su User-Agent oficial. Si quieres bloqueo efectivo: bloquear pools de IPs residenciales conocidos + Cloudflare Bot Fight Mode + verificación humana en contenido crítico. La complaint señala que esto eleva costes de scraping ~10×.

¿Si dejo abierto OAI-SearchBot, OpenAI entrena con mi contenido?

No directamente. OAI-SearchBot está separado de GPTBot. OAI-SearchBot indexa para retrieval real-time en ChatGPT search; GPTBot recolecta datos para training del modelo base. Puedes permitir uno y bloquear el otro independientemente en robots.txt. Documentación oficial OpenAI lo confirma.

¿Cuánto cuesta optimizar el pipeline RAG para mi PYME?

Diagnóstico técnico inicial (auditoría crawl-readiness, schema, robots.txt, autoridad entidad): 8-15h una vez. Optimización ejecutiva (re-config robots, schema implementation, content rewriting answer-first): 20-40h en 4-8 semanas. Si lo subcontratas: pricing público Citora desde €1.500/mes (compromiso 4 meses).

¿Funciona esto sólo en inglés o también en español?

Funciona en ambos. La mayor diferencia: el corpus de entrenamiento de los LLMs principales está sesgado hacia inglés (~80% del corpus según múltiples papers académicos), pero la capa de retrieval real-time funciona idéntico en español si tu contenido está indexado en Google/Bing en ES. Para B2B España es la palanca operativa que te permite competir aunque no tengas presupuesto para producir en inglés también.

¿La demanda Reddit vs Perplexity puede llevar a que Perplexity cierre?

Improbable cierre por esta demanda específica, pero sí restricciones operativas. Resultado más probable: settlement con licencia de pago o injunction parcial. Independientemente del resultado legal, el pipeline expuesto por la complaint es educación técnica valiosa.

El siguiente paso

Si has llegado hasta aquí entendiendo cómo funcionan Perplexity y ChatGPT por dentro, ya estás por delante del 95% de CMOs B2B españoles que siguen tratando GEO como "una variante de SEO". El audit gratuito en citora.es/audit te mide qué pasa cuando un usuario te busca en los 4 LLMs principales — datos reales, 0% hipótesis, ~3 minutos de espera.

Y si quieres atacar las 6 palancas del pipeline con un equipo que ha hecho esto antes, hablamos en 30 minutos. Pricing público: desde €1.500/mes (compromiso 4 meses).

Lecturas relacionadas

Si quieres profundizar en piezas relacionadas con este tema: OAI-SearchBot vs GPTBot: qué bloquear y por qué, Comparativa B2B 4 LLMs (ChatGPT, Gemini, Claude, Perplexity), OpenAI quema dinero: por qué diversificar multi-LLM.

¿Tu negocio aparece en ChatGPT?

Descubre tu Visibility Score en 2 minutos. Gratuito, sin tarjeta.

Hacer mi audit gratis

¿Prefieres ir al grano? Servicios y precios · GEO para tu sector

Más artículos

Estrategia8 min

La IA ya entra en la decisión antes de que tu cliente llegue al buscador: el primer toque cambió de sitio

Durante veinte años, la primera parada del comprador fue Google. Esa suposición ha dejado de ser cierta: como señala Neil Patel, la IA está entrando en la decisión antes de que el cliente llegue siquiera a un buscador. Los blue links se desvanecen, los feeds se reestructuran y cada plataforma optimiza en silencio para el descubrimiento mediado por IA. Para una PYME B2B esto mueve el punto donde se gana o se pierde la venta: si solo trabajas para aparecer en Google, estás optimizando para la segunda parada de un viaje cuya primera parada ya decide otra cosa. Análisis Citora de dónde está ahora el primer toque.

Leer

Estrategia7 min

Un tercio del fintech es invisible para los agentes de IA: por qué tu sector probablemente también

Si un sector tan digital, técnico y bien financiado como el fintech tiene un problema serio de visibilidad ante la IA, ningún sector B2B debería sentirse a salvo. Según Search Engine Journal, uno de cada tres sitios fintech no puede ser leído ni utilizado por los agentes de IA — desaparecen del descubrimiento agéntico. No por mala estrategia, sino por barreras técnicas que impiden que la máquina los lea. Análisis Citora de por qué el fintech es el canario en la mina y qué hacer para no ser ese tercio invisible.

Leer

Métricas7 min

Que ChatGPT te cite no significa que Gemini lo haga: el 71% de los dominios aparece en una sola superficie

Hay una suposición cómoda y peligrosa: que si la IA te cita en un sitio, te cita en todos. Los datos que circulan en presentaciones del sector dicen lo contrario — el 71% de los dominios citados aparece en una sola superficie de IA, y entre las propias propiedades de Google (AI Overviews, AI Mode, Gemini) el solapamiento es inferior al 20%. La cita no se transfiere: cada superficie es un campo distinto que hay que ganar por separado. Análisis Citora de qué significa esto para tu estrategia de visibilidad IA.

Leer

Cómo funcionan Perplexity y ChatGPT por dentro (demanda Reddit)

Lo que la demanda Reddit vs Perplexity nos enseñó

El pipeline real de un motor RAG (Perplexity, ChatGPT search, Claude con tools)

Paso 2 — Source retrieval: por qué SEO clásico sigue importando

Paso 3 — Content fetching: las fricciones técnicas que te excluyen

Paso 4 — Reranking: la batalla por la autoridad sin links

Paso 5 — Synthesis: la mecánica del answer-first

Paso 6 — Citation rendering: cómo te ven los usuarios cuando te citan

Implicaciones prácticas para tu PYME B2B

Lo que probablemente va a cambiar en 2026-2027

Preguntas frecuentes

¿Perplexity me scrapea aunque bloquee su User-Agent?

¿Si dejo abierto OAI-SearchBot, OpenAI entrena con mi contenido?

¿Cuánto cuesta optimizar el pipeline RAG para mi PYME?

¿Funciona esto sólo en inglés o también en español?

¿La demanda Reddit vs Perplexity puede llevar a que Perplexity cierre?

El siguiente paso

Lecturas relacionadas

¿Tu negocio aparece en ChatGPT?

Más artículos

La IA ya entra en la decisión antes de que tu cliente llegue al buscador: el primer toque cambió de sitio

Un tercio del fintech es invisible para los agentes de IA: por qué tu sector probablemente también

Que ChatGPT te cite no significa que Gemini lo haga: el 71% de los dominios aparece en una sola superficie

Este sitio usa cookies