Imagen de un archivo llms.txt

El archivo llms.txt: qué es, para qué sirve y por qué Google lo considera tan irrelevante

Como ya conocerás, los Large Language Models (LLMs), como ChatGPT, Claude o Gemini, están transformando la forma en que consumimos información. Estas IAs pueden acceder a la web, analizar páginas y generar respuestas contextuales. Surge entonces el debate: ¿cómo podemos influir en lo que leen estos modelos? Una propuesta reciente es el archivo llms.txt, un manifiesto en Markdown que promete guiar a los LLMs hacia el contenido más valioso. Pero, ¿funciona realmente? ¿Lo respeta alguien? En abril de 2025, John Mueller, portavoz de Google Search, criticó públicamente su validez. En este artículo analizamos su origen, uso y el veredicto de Google.

¿Qué es llms.txt?

El archivo llms.txt es un recurso en formato Markdown surgido como propuesta para ayudar a los LLMs a identificar y priorizar las partes más relevantes de un sitio web. A diferencia de robots.txt, que bloquea o permite el rastreo, llms.txt no regula acceso, sino que resume el contenido esencial, libre de menús, publicidad u otros elementos de navegación, facilitando la lectura por parte de una IA.

La idea fue planteada en noviembre de 2023 por Jeremy Howard, cofundador de Answer.AI, quien describió llms.txt como un manifiesto para control semántico. En los meses siguientes, algunas comunidades tecnológicas y empresas comenzaron a experimentar con su uso:

  • A principios de 2025, LangChain y LangGraph publicaron sus propios llms.txt en SDK docs.
  • Plataformas como Fast.ai, Answer.AI y Anthropic exploraron pioneramente su implementación.

Aun así, sigue siendo una herramienta experimental, sin estandarización oficial ni adopción masiva.

¿Para qué sirve?

  • Facilitar la lectura de contenido primario: El principal objetivo es distinguir el “núcleo” del sitio web—como artículos, documentación o servicios—del resto (menús, anuncios). Esto haría más eficiente la ingestión por parte de modelos de IA .
  • Mejora en comprensión semántica: Como resumen estructurado y semánticamente relevante, llms.txt podría ayudar a los LLMs a entender mejor el propósito del sitio, preparándolos para generar respuestas más centradas en su contenido.
  • Estar preparados para futuro reconocimiento:Aunque hoy no hay beneficios claros, algunos pioneros piensan que puede aportar ventajas si en el futuro los LLMs aceptan este formato. Su uso temprano podría significar “estar listos” cuando sea adoptado.

Estructura del archivo

El formato Markdown de llms.txt sigue una organización clara:

  • Encabezado H1: identifica el sitio o proyecto.
  • Bloque de cita (>): ofrece una descripción breve del propósito/temática.
  • Encabezados secundarios (##): marcan secciones clave, cada una con enlaces relevantes.
  • Listas (- ): URLs específicas de contenido prioritario.

# Plataforma de datos abiertos

> :contentReference[oaicite:27]{index=27}

## Conjuntos de datos
– :contentReference[oaicite:28]{index=28}
– :contentReference[oaicite:29]{index=29}

## Manuales
– :contentReference[oaicite:30]{index=30}

## Contacto
– :contentReference[oaicite:31]{index=31}

Se publica en la raíz del dominio: https://tusitio.com/llms.txt.

Estado actual de adopción

  • Nicho de adopción limitado: algunas empresas de tecnología y entornos académicos lo adoptan, pero no es norma global.
  • Sin tracción en los grandes: ni Google, ni OpenAI, ni Anthropic han confirmado que lo usan.
  • Sin registros reales: administradores que vieron sus logs afirman que no aparece actividad de bots checando llms.txt, solo herramientas muy concretas como ciertos bots de BuiltWith.

La opinión de Google (John Mueller)

En abril de 2025, John Mueller, uno de los principales voceros de Google Search, expresó su posición en una discusión en Reddit y también vía Search Engine Journal:

  1. No conocen uso real: “AFAIK none of the AI services have said they’re using LLMs.TXT (and you can tell when you look at your server logs that they don’t even check for it)”.
  2. Lo comparó con la etiqueta <meta name="keywords">, un recurso obsoleto y sin impacto: “To me, it’s comparable to the keywords meta tag – this is what a site‑owner claims their site is about … At that point, why not just check the site directly?”.
  3. Redundante e inseguro:
    • Es redundante: si un bot ya accede al contenido, ¿por qué usar otro archivo separado?
    • Abre la puerta a cloaking: se podría mostrar un llms.txt idealizado mientras se oculta contenido real o se engaña a las IA .

Riesgos y limitaciones

Cloaking para IA

Mostrar un llms.txt limpio y atractivamente estructurado pero distinta experiencia para usuarios o motores de búsqueda podría considerarse práctica de cloaking—es decir, ofrecer contenido distinto a diferentes agentes.

Si los modelos no lo leen, ¿para qué sirve?

Si los bots no lo consultan, la utilidad es nula. Google lo considera menos importante que herramientas ya existentes.

8.3 Ineficiente o innecesario

Un bot que busca entender un sitio podría procesarlo directamente, sin depender de un archivo adicional, y además los datos semánticos ya están en structured data, sitemaps o robots.txt .

Alternativas recomendadas

Si lo que quieres es controlar cómo ven las IA tu sitio, Google y los expertos recomiendan otras herramientas más eficaces:

  • robots.txt + meta robots: para indicar rastreo e indexación.
  • Sitemaps y structured data: ayudan al procesamiento y comprensión precisa del contenido.
  • Schema.org: marca semánticamente secciones clave.
  • Seguridad contra scraping: autentificación, limitación de peticiones por IP, CAPTCHAs si procede.

Google considera que estas opciones cumplen mejor los objetivos declarados por llms.txt .

¿Deberías implementarlo?

Depende de tu perfil y objetivos:

  • Adoptantes precoces: si tu audiencia incluye plataformas que ya están usando llms.txt (como ciertos bots de documentación interna corporativa), podrías implementar una versión básica para estar dentro del círculo .
  • Presupuestos grandes: en webs con mucho contenido técnico, productos o documentación (sitios con API, blogs, portales educativos), el esfuerzo de implementar llms.txt es mínimo y podría estar justificado.
  • Sitios tradicionales o con SEO crítico: si tu foco está en posicionar, es más eficaz invertir en SEO clásico y control de indexación/rasteo que en un llms.txt sin tracción práctica.

Futuro potencial

Evolución hacia un estándar real

Si más actores lo adoptan (fundaciones, motores de IA, grandes plataformas), podría consolidarse como un estándar. Hoy, todavía no lo es .

Crecimiento en herramientas especializadas

Algunas desenvolvedoras (p. ej. Fast.ai, Anthropic) ya lo utilizan en contextos de bots internos, APIs documentales y monitores corporativos .

Control de contenidos generados

Podría posicionarse como mecanismo para citar y resumir contenido autorizado, pero solo si es respetado por los modelos. Hoy, esa aceptación no existe.

Conclusión

El archivo llms.txt es una propuesta innovadora para mejorar la comunicación entre sitios web y modelos de IA, resumiendo contenido en Markdown. Sin embargo:

  • No es un estándar oficial ni ampliamente adoptado.
  • No es respetado por los principales LLMs ni por Google, según John Mueller en abril 2025.
  • Google lo descarta como una herramienta redundante y potencialmente problemática, comparándolo con el malogrado meta keywords.
  • Alternativas como robots.txt, sitemaps, schema y security measures ofrecen un control real y tangible sobre el rastreo y presentación del contenido.

Implementarlo solo si tu sitio ya gestiona documentación o APIs que podrían ser consumidas por bots internos (empresa, herramientas especializadas). Para cualquier estrategia SEO o control de crawlers, prioriza soluciones consolidadas. Mantente al tanto: el ecosistema de IA avanza rápido y este formato podría ganar importancia con el tiempo.