Cómo deciden los LLMs a quién citar: el pipeline de grounding (rankear ya no basta)
Rankear #1 en Google ya no garantiza que la IA te cite. Los LLMs funcionan como re-rankers sobre los resultados tradicionales: descomponen la pregunta, recuperan fuentes, y seleccionan frases concretas bajo un presupuesto fijo. Ser recuperado y ser SELECCIONADO son dos problemas distintos. Análisis Citora del pipeline de grounding + por qué la memoria que el modelo ya tiene de tu marca (priors) decide quién entra.
Aquí está el malentendido que cuesta dinero a las PYME B2B en 2026: creer que rankear #1 en Google basta para que la IA te cite. No basta. Los LLMs en búsqueda funcionan como re-rankers sobre los resultados que el ranking tradicional recupera — y dentro de ese proceso, ser recuperado y ser seleccionado son dos problemas distintos. El pipeline de grounding (el mecanismo por el que un modelo "fundamenta" su respuesta en fuentes) funciona así: descompone tu pregunta en sub-preguntas, recupera fuentes rankeadas, y luego el modelo selecciona frases concretas a nivel de oración bajo un presupuesto fijo de espacio. Rankear #1 te compra una porción mayor de ese grounding — pero ser elegido para la cita es una batalla aparte. Y hay un factor emergente que lo decide: los priors paramétricos del modelo, es decir, lo que el modelo YA "sabe" de tu marca antes de buscar. Entender este pipeline es la diferencia entre optimizar a ciegas y optimizar donde de verdad se decide la cita.
El pipeline de grounding, paso a paso
Cuando preguntas algo a Google AI Mode, ChatGPT con búsqueda o Perplexity, no te devuelven "10 enlaces azules". Ejecutan un pipeline de grounding que, simplificado, tiene 3 fases:
Descomposición: la pregunta se rompe en sub-consultas. "¿Mejor CRM para PYME B2B?" se descompone en precio, integraciones, facilidad de uso, soporte en español, etc.
Recuperación (retrieval): para cada sub-consulta se recuperan fuentes rankeadas — aquí sí pesa el ranking tradicional (autoridad, relevancia, enlaces).
Selección bajo presupuesto: el modelo elige frases concretas (snippets a nivel de oración) de las fuentes recuperadas, pero solo caben unas pocas. Hay un presupuesto fijo de espacio/tokens. Aquí se decide QUIÉN se cita.
El punto crítico: rankear bien te mete en la fase 2 (recuperación). Pero la cita se gana o se pierde en la fase 3 (selección), que tiene reglas propias distintas del SEO clásico.
Recuperado ≠ Seleccionado: el error de optimización
La mayoría de las PYME B2B (y muchas agencias) optimizan solo para la fase 2: autoridad de dominio, enlaces, keywords. Eso te hace recuperable. Pero si tu contenido, una vez recuperado, no ofrece frases seleccionables — claras, autocontenidas, atómicas, citables sin contexto — el modelo recupera tu página y aun así cita a otro que sí daba la frase perfecta.
Una frase seleccionable es la que el modelo puede arrancar de tu página y pegar en su respuesta sin que pierda sentido. "El 70% de las PYME B2B no aparece en respuestas IA para queries de su sector" es seleccionable. Tres párrafos enredados que dicen lo mismo, no.
Los priors paramétricos: lo que el modelo ya sabe de ti
Aquí está el factor emergente más importante — y el menos optimizado. Un LLM no llega "en blanco" a la búsqueda. Tiene una memoria paramétrica: relevancia previa sobre marcas, codificada en sus pesos durante el entrenamiento. Una marca que el modelo ya percibe como relevante en su estructura asociativa tiene más probabilidad de ser elegida en el grounding, incluso con ranking similar.
Dicho simple: si ChatGPT ya "conoce" tu marca como una entidad relevante de tu sector (porque apareces consistentemente en su corpus de entrenamiento: prensa, directorios, foros, menciones), partes con ventaja en la selección. Si eres un desconocido para el modelo, tienes que ganar la cita solo con la página recuperada — mucho más difícil.
Esto conecta directamente con el concepto de Amalgamated Authority que define la estrategia GEO de Citora: estar presente en suficientes fuentes independientes para que el modelo te codifique como consenso del mercado. No es solo tu web — es tu huella en todo el corpus.
Los 6 factores de selección model-side
Más allá del ranking, el modelo evalúa cada fuente recuperada en dimensiones propias. Taxonomía simplificada:
Factor
Qué evalúa
Cómo optimizarlo
Alineación
¿Responde exactamente la sub-consulta?
Contenido que responde preguntas concretas, no genérico
Sustancia
¿Aporta info real (information gain)?
Datos propios, casos, postura
Arquitectura
¿Está estructurado en chunks atómicos?
H2/H3 + bloques autocontenidos + listas
Estilo
¿Las frases son extraíbles sin contexto?
Oraciones claras, afirmaciones completas
Encuadre
¿Define entidades y relaciones claras?
Schema, entidades nombradas, triadas semánticas
Prueba
¿Hay evidencia/validación de terceros?
Consenso digital, citas, datos verificables
Fíjate que solo uno de los seis (arquitectura) es "técnico SEO clásico". El resto es calidad de contenido + entidad + consenso. Por eso el GEO no es SEO con otro nombre.
Qué significa esto operativamente para PYME B2B
No te quedes en "rankear". Rankear te hace recuperable; necesitas además ser seleccionable. Optimiza las dos fases.
Escribe en frases citables. Afirmaciones atómicas, autocontenidas, con dato cuando aplique. El modelo cita frases, no páginas.
Construye priors paramétricos. Presencia consistente cross-fuente (prensa, directorios, foros, menciones) para que el modelo te codifique como relevante. Es trabajo de meses, pero es el factor de mayor compounding.
Estructura para chunking. H2/H3 con preguntas + bloques de respuesta autocontenidos + Schema. Facilita la fase de selección.
Preguntas frecuentes
¿Entonces rankear en Google ya no sirve para nada?
Sí sirve — es prerequisito para entrar en la fase de recuperación del grounding. Pero ya no es suficiente. Rankear te mete en el pool de candidatos; ser seleccionado para la cita tiene reglas adicionales (frases citables + priors + estructura). Rankear es necesario, no suficiente.
¿Qué son exactamente los "priors paramétricos"?
Es la relevancia previa que el modelo tiene codificada de una marca en sus pesos, aprendida durante el entrenamiento. Si una marca aparece mucho y consistentemente en el corpus (prensa, foros, directorios), el modelo la "percibe" como relevante y tiende a elegirla más en el grounding. Es la versión LLM de la autoridad de marca.
¿Cómo construyo priors si soy una marca nueva?
Presencia consistente cross-fuente durante meses: prensa sectorial, directorios verificados, foros B2B, menciones editoriales, Wikidata/Crunchbase. No hay atajo — es Amalgamated Authority. Pero una vez codificado, el prior compone a tu favor en cada búsqueda futura.
¿Cómo escribo frases "seleccionables"?
Afirmaciones completas y autocontenidas que tengan sentido sin el párrafo anterior. Con dato o cifra cuando aplique. "X hace Y porque Z" en una sola frase. Evita oraciones que dependen de 3 párrafos de contexto — el modelo no las puede extraer limpiamente.
¿Esto es lo mismo que el chunking que Google dijo que era myth?
Google dijo que NO necesitas un formato especial de chunking artificial para AIO/AI Mode. Estructurar bien tu contenido (H2/H3, bloques claros) NO es eso — es buena práctica de contenido que ayuda tanto a lectores como a la fase de selección. No metas marcado raro; sí escribe estructurado y claro.
¿Puedo medir mis priors paramétricos?
De forma aproximada: pregunta a ChatGPT/Claude/Perplexity por tu marca exact-match sin búsqueda activada. Si te describe con precisión (sector, qué haces), tienes priors. Si no sabe quién eres o te confunde, tus priors son débiles. Es un proxy del trabajo de entidad pendiente.
Siguiente paso
Si tu PYME B2B rankea bien en Google pero no aparece citada en ChatGPT/Perplexity, el problema está en la fase de selección del grounding, no en el ranking. El audit gratuito de Citora mide tu Citation Rate cross-4-motores + diagnostica si el problema es recuperación, selección o priors débiles. 2 minutos.
Mayo 2026: el plugin AIOSEO (3M+ instalaciones activas en WordPress) introdujo auto-creación de llms.txt + archivos markdown ON BY DEFAULT. Millones de sites están publicando llms.txt sin que sus owners lo sepan. Análisis Citora: qué implica esto para los LLMs (¿ruido masivo o señal útil?), por qué tu PYME B2B NO debería preocuparse por aparecer aquí, y qué SÍ debes auditar en tu site WordPress esta semana.
Microsoft publicó en mayo 2026 una guía oficial titulada "How To Get Traffic From ChatGPT" — primera vez que una de las big tech detrás de un motor IA documenta públicamente cómo optimizar para aparecer en sus respuestas. Análisis Citora del documento + 6 acciones concretas para PYME B2B española.
Google expandió Preferred Sources en mayo 2026 de solo medios news a CUALQUIER web (B2B incluido). 345.000 sources registradas + integración con AI Overviews y AI Mode. Cómo añadir tu PYME B2B al programa en 5 minutos y por qué es la palanca AIO más concreta de 2026.