Monitoreo multi-LLM: cómo saber si está funcionando

¿Tu trabajo de visibilidad IA está sirviendo? Si ya tomaste las siguientes acciones:

Es momento de saber cómo medir si funcionó — antes de que haya un solo clic.

Aquí conviene una distinción que casi nadie hace explícita. Hay dos capas de medición, distintas y complementarias, y este post cubre solo la primera.

La capa de visibilidad mide presencia: ¿la IA te cita en absoluto? ¿Con qué frecuencia? ¿En qué prompts de tu categoría? ¿Frente a quién? Sus métricas son share of voice, citation rate, prompt coverage y sentiment — todas antes del clic.

Mientras que la capa de tráfico mide lo que pasa después: sesiones atribuidas a IA, eventos completados por las personas provenientes de IA, compras, transacciones o inicios de sesión. Las dos hacen falta. Este post se enfoca exclusivamente en la primera.

Es el cierre del loop. El framework Searchability y el AI Visibility Score miden tu sitio por dentro; el monitoreo multi-LLM mide tu presencia por fuera, en las respuestas de los modelos. Y donde la ingeniería de menciones de marca es el cómo se gana presencia, este monitoreo es el cómo se mide la ganancia. Sales de aquí con un proceso accionable que puedes correr el primer mes para empezar a hacer una línea base.

Por qué medir en varios LLMs y no en uno solo

Los modelos no citan igual. Un análisis de Profound sobre 680 millones de citaciones encontró que la fuente más citada de ChatGPT es Wikipedia (47,9% de su top 10), mientras que la de Perplexity es Reddit (46,7%) — dos lógicas de fuentes de información casi opuestas sobre la misma web.

La conclusión del propio estudio es directa: "un enfoque único para la visibilidad IA no puede tener éxito" dada esa divergencia. Si mides solo ChatGPT y declaras victoria, estás leyendo un mapa parcial.

Esto encaja con lo que ya muestran los datos de descubrimiento. Según Ahrefs, que analizó 75.000 marcas, los tres factores que más correlacionan con la presencia en AI Overviews son todos fuera de tu sitio web — menciones de marca en la web (0,664 de correlación de Spearman) muy por encima de los backlinks (0,218). La señal vive fuera de tu sitio, y cada motor la lee a su manera. Medir uno solo no captura el conjunto de acciones necesarias para mejorar tu visibilidad IA.

Suscríbete al newsletter de Madbotz para recibir el próximo análisis directo en tu correo. Sin spam, sin ruido — solo posts nuevos.

Las métricas que de verdad importan

No necesitas un dashboard de cincuenta indicadores. Necesitas seis con una definición operacional clara, las mismas que validan si el trabajo de autoridad para motores de respuesta está moviendo la aguja.

Share of voice por LLM — el porcentaje de prompts de tu categoría donde apareces frente a los competidores nombrados. Define la categoría primero; luego mides quién la ocupa. Es el mismo concepto que el AI Search Grader de HubSpot llama tu porción de la voz de categoría.
Citation rate — cuando eres relevante para el prompt, qué tan seguido te citan. Numerador: prompts donde te citan. Denominador: prompts donde la categoría aparece. Mide eficiencia, no cobertura.
Prompt coverage — cuántos de tu lista canónica de 20-30 prompts te mencionan al menos una vez. Mide cobertura, no frecuencia.
Source attribution rate — cuando el LLM muestra fuentes (Perplexity, ChatGPT con búsqueda), qué porcentaje de esas URLs son tuyas frente a las de competidores. Aquí el monitor mide si tu contenido citable está siendo extraído de verdad.
Sentiment — si las menciones son positivas, neutras o críticas. Una ingeniería de menciones exitosa no es solo aparecer; es aparecer bien.
Tendencia mensual — la curva trimestre a trimestre. Ninguna de las anteriores vale como dato suelto; el valor está en el movimiento.

Las dos primeras se confunden seguido, y no son lo mismo. El share of voice mide cuánto del espacio total ocupas; el citation rate mide qué tan seguido te eligen cuando eres relevante. Necesitas las dos.

Qué LLMs conviene cubrir

La priorización es pragmática, no exhaustiva. Cubre los cuatro que concentran la atención de tu categoría y deja el quinto como opcional.

ChatGPT primero, por cuota: según Similarweb vía Momentic, en abril de 2026 mantenía cerca del 54,7% de las visitas web entre los asistentes líderes (58,9% en Estados Unidos). Gemini segundo (~27,4%), apalancado en su integración con Google Workspace y las AI Overviews. Claude tercero por crecimiento y peso en B2B y desarrollo (~12,5% de la cuota en Estados Unidos).

Perplexity merece un lugar aunque su tráfico crudo sea menor (~1,5%): es donde las citas son más visibles y trazables. Su programa de publishers confirma que "Perplexity siempre cita sus fuentes, con enlaces clicables" — lo que lo vuelve el mejor lugar para medir source attribution rate. Copilot queda como opcional, relevante si tu comprador vive en el ecosistema Microsoft enterprise.

Un detalle de infraestructura: los monitores que dependen de browsing en vivo solo te ven si un bot puede rastrearte. Si fallaste la crawlability para bots IA, no aparecerás en Perplexity ni en ChatGPT con búsqueda — el monitor marcará cero por una razón que no es tu contenido.

Comparativa de herramientas de monitoreo

El mercado de herramientas multi-LLM maduró rápido en 2026. La tabla cubre ocho opciones por rango de precio y caso de uso. La última columna — para quién conviene — es la respuesta destacada: dónde encaja cada una.

Tabla 1 — herramientas de monitoreo de visibilidad multi-LLM. Precios y cobertura según las páginas oficiales de cada herramienta, verificadas el 2026-06-08.

Herramienta	LLMs cubiertos	Métricas principales	Modelo de precio	Fortaleza	Para quién conviene
HubSpot AI Search Grader	ChatGPT, Perplexity, Gemini	Share of category voice, rank, percepción competitiva	Free (monitoreo continuo desde 50 USD/mes)	Baseline sin costo ni tarjeta	Empieza aquí si no quieres pagar todavía
Otterly.ai	ChatGPT, Perplexity, Gemini, AI Overviews, AI Mode, Copilot	Menciones, citation rate, sentiment, snapshots históricos	Desde 29 USD/mes	Prompts custom, alertas e histórico	SMB y mid-market con presupuesto acotado
Semrush AI Visibility Toolkit	ChatGPT, Perplexity, Gemini, AI Overviews, AI Mode	Share of voice, sentiment, citations, competidores	99 USD/mes (o bundle Semrush One)	Integra SOV y citations al stack SEO	Equipos que ya viven en Semrush
Peec AI	ChatGPT, Perplexity, Gemini (Claude/Copilot add-on)	Visibilidad, benchmarking competitivo, daily tracking	Desde 95 USD/mes	Tracking diario y comparación de rivales	Mid-market y agencias sin precio enterprise
Athena HQ	ChatGPT, Perplexity, Gemini, Claude, Copilot, Grok, AI Overviews	Share of voice, citation tracking, recomendaciones	De pago (por uso / custom)	Benchmarking más respuestas accionables	Equipos que quieren el porqué, no solo el qué
Profound	10+ plataformas (ChatGPT, Claude, Gemini, Perplexity, Grok, Copilot…)	Answer engine insights, prompt volumes, agent analytics	Enterprise (custom; desde ~399 USD/mes)	Dashboards profundos y cobertura amplia	Enterprise con footprint global y stack analítico
Goodie AI	ChatGPT, Gemini, Perplexity, Claude	Menciones, sentiment, citaciones, crawler analytics	De pago (demo)	UI simple más analítica de crawlers	SMB y agencias que quieren todo en una vista
Scrunch AI	4+ modelos	Monitoreo, citaciones, insights, experiencia de agente	Desde 250 USD/mes	Mide y además optimiza para agentes IA	Marcas que quieren medir y actuar sobre el agente

Cómo hacerlo sin pagar (baseline manual)

Si no vas a pagar herramientas en el primer trimestre, igual puedes hacer una línea base. El método es manual.

Define una lista canónica de 20-30 prompts de tu categoría, mezclando bottom-funnel ("¿cuál es la mejor herramienta para X?") con top-funnel ("¿cómo se hace X?"). Ejecuta cada prompt en los cuatro LLMs prioritarios una vez al mes. Captura todo en un Google Sheet con columnas: LLM, prompt, mencionado (sí/no), posición, fuentes mostradas, sentiment y notas.

Al cierre del mes calculas share of voice y citation rate; tres meses te dan tendencia. El punto de entrada sin costo más limpio sigue siendo el AI Search Grader gratuito de HubSpot, que corre tu marca contra ChatGPT, Perplexity y Gemini sin pedir tarjeta. La limitación honesta: este DIY no escala más allá del primer trimestre ni de una marca pequeña — las herramientas automatizan exactamente esto a escala.

Anti-patrones que arruinan la medición

Seis formas de medir mal que vemos operando en marcas reales.

Medir un solo LLM y declarar victoria — cada modelo cita distinto, un solo motor es media foto.
Vanity de "menciones positivas" sin contexto — una mención suelta no significa nada sin share of voice frente a competidores y sin sentiment. Necesitas una línea base.
Asumir que el tráfico de GA4 equivale a visibilidad — miden capas distintas. Si solo trackeas tráfico, pierdes la señal del trabajo de visibilidad que todavía no convierte en clic.
Correr tu análisis una sola vez — el valor está en la tendencia mensual; un monitoreo aislado de una ocasión mide ruido, no señal.
Confundir share of voice con citation rate — uno mide cuánto del espacio ocupas, el otro qué tan seguido te citan cuando eres relevante. Son dos métricas, no una.
Optimizar para prompts que tu equipo no encontraría — la lista de prompts es una decisión estratégica, no técnica. Mide lo que importa al negocio, no prompts irrelevantes.

Cómo se reporta esto al board

El board no quiere citation rate por LLM. Quiere saber si la marca está ganando terreno y dónde doblar la apuesta. La traducción es el trabajo.

Un reporte de una página dice algo así: "el share of voice en la categoría X subió de 8% a 14% en el Q2; nos citan en 18 de 30 prompts canónicos frente a 9 en el Q1; el modelo que más nos cita es Perplexity, y la fuente más enlazada es nuestro post Y". Cierras con el insight accionable — si Perplexity rinde y tu contenido es lo más citado, ahí doblas la apuesta el próximo trimestre. La métrica es el medio; la decisión de inversión es el mensaje.

Checklist mensual de monitoreo multi-LLM

Lo que el responsable revisa cada mes para saber si la visibilidad avanza:

Lista canónica de prompts revisada (cambios trimestrales).
Los 4 LLMs prioritarios ejecutados.
Share of voice calculado frente al trimestre anterior.
Citation rate trackeado por LLM.
Sentiment auditado.
Source attribution rate revisado.
Anomalías investigadas — ¿competidor nuevo? ¿caída repentina?
Reporte ejecutivo de una página entregado al CMO o al board.

Lo que Madbotz puede y no puede presumir

Honestidad antes que humo. Madbotz está midiendo su propia presencia multi-LLM, y la línea base aún está baja — el blog es joven: 7 posts publicados y unas semanas en vivo desde el Post 1. No vamos a inflar lo que todavía no tenemos.

Lo que sí podemos documentar es la metodología que estamos aplicando a nosotros mismos: la lista de prompts de nuestra categoría, las herramientas que evaluamos en la tabla de arriba, y el AI Visibility Score como el dataset citable que estamos sembrando — el framework Searchability y los 131 check items de Visibility como contribución de industria. Y los aprendizajes preliminares del primer análisis, sin maquillarlos.

Preguntas frecuentes

¿Cuál es la diferencia entre medir visibilidad IA y medir tráfico IA?

Son capas distintas. La visibilidad IA mide si los modelos te citan y con qué frecuencia, antes de cualquier clic — share of voice, citation rate y prompt coverage. El tráfico IA mide las sesiones y conversiones que llegan a tu sitio después del clic. Las dos hacen falta; este proceso cubre la primera.

¿Con cuántos LLMs debo empezar a monitorear?

Empieza con los cuatro que concentran el uso de tu categoría: ChatGPT, Perplexity, Gemini y Claude. Medir uno solo y declarar victoria es el error más común, porque cada modelo cita fuentes distintas y la heterogeneidad es justo el dato que buscas.

¿Cada cuánto debo correr el monitoreo?

Mensual como mínimo. El valor no está en una foto suelta sino en la tendencia trimestre a trimestre; un solo monitoreo mide ruido, no una señal de avance. Tres meses te dan la primera curva sobre la cual decidir.

¿Puedo medir mi visibilidad multi-LLM sin pagar herramientas?

Sí. Arma una línea base manual con una lista de 20-30 prompts de tu categoría, ejecútalos en los cuatro LLMs una vez al mes y regístralo en un Google Sheet. No escala más allá del primer trimestre, pero te da una tendencia inicial sin costo. El AI Search Grader gratuito de HubSpot es otro punto de partida.

Cierre

Tres ideas para llevarte:

La visibilidad y el tráfico son capas distintas — este proceso mide la primera, la presencia en los modelos antes del clic.
Mide en varios LLMs, no en uno: cada modelo cita distinto, y medir solo ChatGPT es leer media foto.
El valor está en la tendencia — corre el monitor cada mes, reporta la curva al board y dobla la apuesta donde rinde.

Antes de medir tu presencia por fuera, vale la pena saber qué tan visible es tu sitio por dentro — y cuáles de los 131 check items del framework Searchability ya cumples.

Analiza tu sitio gratis — ingresa una URL y obtén tu AI Visibility Score en menos de 60 segundos.

Informe de Visibilidad IA