llms.txt: evidencia, hype y qué hacer

llms.txt promete que la IA entienda mejor tu sitio. La evidencia pública dice otra cosa: hoy ningún LLM major confirma leerlo. Separamos la idea original del hype y mostramos qué hacer en su lugar.

Qué es llms.txt y qué promete

La propuesta nació en septiembre de 2024 y tiene autoría clara. Según Answer.AI, Jeremy Howard propuso "añadir un archivo /llms.txt a los sitios diseñados para ser leídos por modelos de lenguaje, no solo por personas".

El formato es deliberadamente simple. Según la especificación oficial, es un archivo Markdown plano en la raíz del dominio que lista enlaces curados a las páginas más relevantes. La idea: que un modelo arme contexto sin rastrear todo el sitio.

El problema que intenta resolver es real. Las ventanas de contexto son finitas, los tokens limitados y convertir HTML lleno de navegación y anuncios en texto limpio es impreciso y costoso. La propuesta de Howard tiene mérito como idea — el debate no es sobre ella, sino sobre cómo se ha adoptado después.

La propuesta va más allá del archivo raíz. Según Answer.AI, también sugiere ofrecer una versión Markdown de cada página en la misma URL con el sufijo .md. La intención es coherente: dar al modelo texto limpio sin el ruido del marcado.

Suscríbete al newsletter de Madbotz para recibir el próximo análisis directo en tu correo. Sin spam, sin ruido — solo posts nuevos.

Estado de adopción en 2026

Conviene separar dos cosas: cuántos sitios cuentan con un /llms.txt y cuántos bots oficialmente lo respetan. Lo segundo es lo que decide el retorno de inversión en tiempo, y ahí la documentación oficial es elocuente por omisión.

OpenAI documenta tres agentes con propósitos distintos. Según OpenAI, usa "OAI-SearchBot y GPTBot tags en robots.txt para que los webmasters gestionen cómo sus sitios trabajan con la IA" — entrenamiento, búsqueda en ChatGPT y acceso a petición del usuario. La página no menciona llms.txt.

Anthropic describe un esquema equivalente. Según el centro de ayuda de Anthropic, sus bots "respetan las señales de no rastrear honrando las directivas estándar de robots.txt", repartidos entre ClaudeBot, Claude-User y Claude-SearchBot. Tampoco aparece llms.txt.

Google va en la misma línea. Según Google Search Central, el control para usos de IA es el token Google-Extended dentro de robots.txt. Ninguno de los tres grandes documenta soporte para llms.txt.

El patrón es revelador. Los tres proveedores eligieron robots.txt como punto de control y publicaron user-agents nombrados para cada propósito. Si llms.txt fuera la vía esperada para hablarle a sus modelos, esperarías verlo en estas mismas páginas — y no está.

Archivo	Qué hace	¿Lo usan los LLMs major hoy?	Qué priorizar
robots.txt	Controla qué bots rastrean y para qué (entrenamiento, búsqueda, acceso)	Sí — documentado por OpenAI, Anthropic y Google	Configúralo bien primero
sitemap.xml	Lista todas las URLs del sitio para descubrimiento e indexación	Sí — estándar de descubrimiento de larga data	Mantenlo actualizado
llms.txt	Cura en Markdown el contenido prioritario para que un modelo arme contexto	Sin confirmación oficial de ningún motor major	Opcional y medido, no prioritario

La evidencia: ¿algún LLM lo lee hoy?

El hallazgo de este post es incómodo, pero hay que decirlo claro: no hay evidencia pública de que un LLM major lea llms.txt en producción. No se trata de rumores de redes — se trata de declaraciones y logs.

La cita más directa es del propio Google. Según Search Engine Journal, John Mueller escribió: "Que yo sepa, ningún servicio de IA ha dicho que use LLMs.txt, y puedes verlo en tus logs de servidor: ni siquiera lo consultan".

Los logs lo confirman a escala. En esa misma cobertura, según Search Engine Journal, un operador que aloja más de 20.000 dominios reportó que ningún bot relevante descarga esos archivos, solo agentes de nicho. Cuando una propuesta lleva más de un año publicada y los servidores no registran consumo, el peso de la prueba cambia de lado.

Conviene definir qué contaría como evidencia válida. Serían dos cosas: un anuncio oficial de soporte por parte de un motor major, o registros de servidor que muestren sus user-agents conocidos solicitando /llms.txt. Hoy no existe ninguno de los dos públicamente.

El cargo cult de llms.txt

Aquí está el problema real, y no es la propuesta de Howard — es el patrón de adopción acrítica. Implementar una señal porque "suena a IA" sin verificar que alguien la lea es ritual, no estrategia.

La comparación oficial es dura. Según Search Engine Journal, Mueller equiparó llms.txt con la vieja meta etiqueta de keywords: "esto es lo que un dueño de sitio afirma que su sitio trata; ¿es verdad? Puedes verificarlo, y en ese punto, ¿por qué no revisar el sitio directamente?".

Los anti-patrones que vemos operando se repiten. Copiar un /llms.txt sin curaduría real. Duplicar el sitemap.xml en otro formato. Asumir que más señales equivalen a más visibilidad. Declarar mejoras de rastreo sin una sola métrica de antes y después.

Ninguno de esos cuatro hábitos tiene un mecanismo verificable detrás. Si no puedes nombrar qué motor leerá el archivo ni qué número se moverá, estás decorando, no optimizando.

Hay además un riesgo de integridad. Según Search Engine Journal, nada impide mostrar un contenido en llms.txt y otro distinto a usuarios y buscadores — cloaking para LLMs. Esa posibilidad le da a cualquier motor una razón más para no confiar en el archivo.

Lo que sí funciona: robots.txt como estándar canónico

La buena noticia es que el estándar que los motores sí respetan ya existe y está documentado por cada proveedor. No hay que inventar nada — hay que configurarlo bien.

robots.txt es el punto de control real. Según OpenAI, permite "que un webmaster habilite OAI-SearchBot para aparecer en resultados de búsqueda mientras bloquea GPTBot" para que su contenido no entre al entrenamiento. Cada decisión es independiente y verificable.

El mismo principio aplica a Anthropic y Google. Según el centro de ayuda de Anthropic, basta una directiva por user-agent en robots.txt para gestionar ClaudeBot, Claude-User y Claude-SearchBot. Esa es la palanca con efecto medible.

Y el efecto sobre la citación es explícito. Según OpenAI, los sitios excluidos de OAI-SearchBot "no se mostrarán en las respuestas de búsqueda de ChatGPT". Permitir el bot correcto en robots.txt influye directamente en si te pueden citar — algo que llms.txt, a día de hoy, no ofrece.

Cuándo llms.txt puede tener sentido

Hay escenarios estrechos donde la curaduría manual agrega valor. Según Answer.AI, el caso de uso original son las librerías de software, donde el archivo "ofrece una visión estructurada de la documentación para que un modelo localice funciones o ejemplos".

En esa familia caben sitios doc-heavy con estructura tipo /docs, proyectos open-source y bases de conocimiento técnicas. Ahí la curaduría es trabajo real, no cosmético — y conviene tratarlo como experimento con una métrica medible, no como garantía.

Cuándo no tiene sentido

Para la mayoría de los sitios, no lo tiene. Un blog corporativo o un sitio de marketing estándar no gana retorno medible declarando un /llms.txt que duplica lo que el sitemap ya expone.

Si tu contenido ya es rastreable y tu sitemap está al día, llms.txt es un esfuerzo sin retorno demostrable. El tiempo del equipo rinde más en señales que la evidencia sí respalda.

El costo de oportunidad es el argumento de fondo. Cada hora dedicada a curar un archivo que nadie consulta es una hora que no se invirtió en datos estructurados, autoría o velocidad — palancas con efecto documentado. Para un CMO (Chief Marketing Officer) que defiende presupuesto, esa diferencia importa.

Dónde invertir si quieres que la IA te cite

Conceptualmente, llms.txt cae bajo la idea de "ser encontrable", el primer principio del framework Searchability que documentamos como pieza de marca. Pero dentro de ese principio, la evidencia favorece otras tácticas más mundanas y comprobadas.

Esas tácticas son conocidas: URLs canónicas limpias, robots.txt bien configurado, sitemap.xml actualizado y datos estructurados. Según schema.org, su vocabulario "ayuda a los buscadores y otras aplicaciones a entender el contenido" — exactamente la legibilidad que llms.txt promete sin la adopción que le falta.

Y si tu objetivo de fondo es ser citado por la IA, las señales de autoridad pesan más que cualquier archivo declarativo. Lo desarrollamos en E-E-A-T para motores de respuesta: los modelos eligen fuentes por experiencia, autoridad y confianza, no por lo que un sitio afirma de sí mismo en /llms.txt.

En la práctica, esto significa tratar la visibilidad para IA como una disciplina medible, no como una lista de archivos que copiar. Primero los estándares que los motores respetan; después, experimentos acotados solo si sobra capacidad.

Checklist de que hacer antes de LLMs.txt

En orden de prioridad, esto es lo que conviene hacer en vez de — o antes de — implementar llms.txt:

Configura robots.txt para los bots de IA que quieres que te citen (GPTBot, OAI-SearchBot, ClaudeBot, Google-Extended).
Mantén un sitemap.xml actualizado y enviado en Search Console.
Implementa datos estructurados schema.org (Organization, Article, FAQPage).
Usa URLs canónicas limpias, consistentes y con trailing slash.
Invierte en señales E-E-A-T: autoría real, citas externas, autoridad demostrable.
Mide el antes y el después con datos reales; nunca asumas el impacto.
Si aun así implementas llms.txt, cúralo de verdad y trátalo como experimento medido.

El analizador gratuito de Visibility revisa robots.txt, sitemap y la política de bots de IA entre sus 131 check items — un punto de partida concreto para los primeros cuatro pasos.

Preguntas frecuentes

¿ChatGPT u OpenAI leen llms.txt hoy?

No hay confirmación oficial. La documentación de crawlers de OpenAI describe GPTBot, OAI-SearchBot y ChatGPT-User, todos controlados vía robots.txt, y no menciona llms.txt como un archivo que sus agentes consulten.

¿Claude o Anthropic leen llms.txt hoy?

Tampoco hay confirmación. La documentación de Anthropic describe ClaudeBot, Claude-User y Claude-SearchBot, y dice que respetan las directivas estándar de robots.txt. No cita a llms.txt como señal que sus bots usen.

¿Es lo mismo que robots.txt o sitemap.xml?

No. robots.txt controla qué bots pueden rastrear y sitemap.xml lista todas tus URLs para indexación. llms.txt es una propuesta distinta: curar contenido en Markdown para que un modelo arme contexto. Solo robots.txt y sitemap.xml son estándares que los motores major respetan hoy.

¿Debo implementar llms.txt de todos modos por si acaso?

Si te sobra tiempo y lo tratas como experimento medido, no hace daño. Pero no sustituye a robots.txt, sitemap.xml ni a las señales de autoridad. Prioriza primero lo que la evidencia ya respalda y mide el antes y el después.

Conclusión

La propuesta de llms.txt es legítima, pero la evidencia de 2026 es clara en tres puntos:

Ningún LLM major confirma leer llms.txt en producción, y los logs de servidor lo respaldan.
robots.txt, sitemap.xml y schema.org sí son estándares documentados que los motores respetan.
Si quieres que la IA te cite, invierte en autoridad y legibilidad medibles, no en archivos declarativos.

Antes de añadir otra señal "por si acaso", revisa la que de verdad mueve la aguja.

Analiza tu sitio gratis — ingresa una URL y obtén tu AI Visibility Score en menos de 60 segundos.

Reporte de Visibilidad AI