Cuando Perplexity responde a la pregunta "¿cuál es la mejor empresa de contabilidad para autónomos en España?", no inventa la respuesta ni la saca de su memoria. Ejecuta un proceso en tiempo real que se llama RAG — Retrieval-Augmented Generation. Entender ese proceso es entender por qué tu empresa aparece o no en las respuestas de la IA.

Qué es RAG en lenguaje de negocio

RAG es un sistema en dos fases que utilizan los LLMs modernos para responder preguntas:

Retrieval (recuperación): antes de generar una respuesta, el sistema busca en una base de datos de fuentes externas cuáles son más relevantes para la pregunta. Es como si la IA hiciera una búsqueda antes de responder.
Augmented Generation (generación aumentada): el modelo usa esas fuentes recuperadas como contexto para generar la respuesta. La respuesta final es una síntesis de la información recuperada, no una invención.

El resultado es una respuesta que cita fuentes específicas — o que las incorpora sin citar explícitamente, dependiendo del modelo.

Cómo decide RAG qué fuentes usar

Aquí está el núcleo de lo que GEO optimiza. La selección de fuentes en RAG funciona así:

1. Conversión a vectores

Cada documento — página web, artículo, ficha de directorio — se convierte en un "vector": una representación numérica de su contenido semántico. No es sobre palabras exactas (como funciona Google), sino sobre significado.

2. Búsqueda por similaridad semántica

Cuando el usuario hace una pregunta, esa pregunta también se convierte en un vector. El sistema busca los documentos cuyos vectores son más similares al de la pregunta. Esto significa que no necesitas usar las palabras exactas que usa el comprador — necesitas tratar los mismos conceptos.

3. Ranking de relevancia y autoridad

Entre los documentos relevantes semánticamente, el sistema aplica un segundo filtro: autoridad de la fuente. Los LLMs tienen ponderaciones distintas:

Ponderaciones por LLM

Perplexity: 39-64% de peso en listas de autoridad ("los mejores X de Y sector"). Claude: 68% de peso en bases de datos empresariales verificadas. Gemini: 23% de peso en autoridad web general.

Qué tipo de contenido favorece RAG

Dado que RAG selecciona documentos por similaridad semántica y luego por autoridad, el contenido que mejor funciona en GEO tiene estas características:

Alta densidad factual: datos concretos, números, fechas, nombres. Los embeddings vectoriales capturan mejor la información factual que el texto retórico.
Triadas semánticas: agrupar conceptos relacionados en el mismo fragmento. Por ejemplo: "GEO, visibilidad en IAs, Citation Rate" en el mismo párrafo crea un cluster semántico que el sistema recupera como unidad.
Respuestas directas: el sistema prefiere documentos que responden directamente a la pregunta, no los que "hablan sobre el tema" en general.
Consistencia entre fuentes: si múltiples fuentes dicen lo mismo sobre tu empresa, el sistema lo interpreta como señal de mayor fiabilidad.

Por qué el 90% viene de fuentes externas

Uno de los errores más frecuentes en GEO es centrarse únicamente en optimizar la propia web. En modelos RAG, el 90% de la información que alimenta la respuesta proviene de fuentes externas: foros, directorios, prensa, bases de datos. Tu web es solo el 10%.

Esto explica el concepto de consenso digital: para que un LLM te cite con confianza, necesita ver que múltiples fuentes independientes dicen cosas consistentes sobre ti. Una sola fuente — aunque sea excelente — no genera la confianza suficiente.

Diferencia entre LLMs con RAG y sin RAG

Modelo	RAG activo	Implicación para GEO
Perplexity	Siempre (búsqueda en tiempo real)	Fuentes frescas y actuales tienen más peso
ChatGPT (con Search)	Cuando el usuario activa búsqueda	Contenido indexado por Bing tiene ventaja
ChatGPT (sin Search)	No (datos de entrenamiento)	Fuentes históricas y de alta autoridad
Claude	Parcial (bases de datos específicas)	Bases de datos verificadas son críticas
Gemini	Sí (integrado con búsqueda Google)	El ecosistema Google (Maps, Business) importa

Esta diferencia explica por qué GEO no es una táctica única sino una estrategia que adapta las fuentes prioritarias según el LLM objetivo.

Cómo optimizar para RAG con schema JSON-LD

Entender RAG tiene una implicación directa para el schema: cuanto más estructurada y semánticamente densa sea la información que das en tus schemas, más fácilmente el sistema RAG la recupera e incluye en respuestas.

Organization con sameAs exhaustivo: vincular tu entidad a referencias verificadas externas (LinkedIn, Wikidata, Crunchbase) crea el grafo semántico que RAG usa para identificarte como entidad única y confiable — no como ruido.
TechArticle: para contenido técnico, este schema señala al sistema RAG que la página tiene alta densidad factual y merece ser recuperada para queries técnicas de tu sector.
FAQPage: cada pregunta del schema FAQPage se convierte en un vector que compite en la recuperación RAG. Preguntas bien formuladas con respuestas directas y factuales tienen alta probabilidad de ser recuperadas frente a contenido genérico.

Aplicación práctica

Si tu target usa principalmente Perplexity para investigar (común en perfiles técnicos y directivos), la estrategia prioriza contenido fresco y fuentes con alta frecuencia de actualización. Si usa ChatGPT sin búsqueda, la prioridad es construir presencia en las fuentes históricas de mayor autoridad. El audit GEO te ayuda a determinar qué LLMs usa tu target y priorizar en consecuencia.

Cómo funciona RAG: la tecnología detrás de GEO explicada sin jerga

Qué es RAG en lenguaje de negocio

Cómo decide RAG qué fuentes usar

1. Conversión a vectores

2. Búsqueda por similaridad semántica

3. Ranking de relevancia y autoridad

Qué tipo de contenido favorece RAG

Por qué el 90% viene de fuentes externas

Diferencia entre LLMs con RAG y sin RAG

Cómo optimizar para RAG con schema JSON-LD

¿Tu negocio aparece en ChatGPT?

Más artículos

¿Qué es GEO? Guía completa de Generative Engine Optimization

GEO, AEO, LLMO: tres siglas, una disciplina

Generative Engine Optimization (GEO) en 2026: guía completa para empresas españolas