Como ya conocerás, los Large Language Models (LLMs), como ChatGPT, Claude o Gemini, están transformando la forma en que consumimos información. Estas IAs pueden acceder a la web, analizar páginas y generar respuestas contextuales. Surge entonces el debate: ¿cómo podemos influir en lo que leen estos modelos? Una propuesta reciente es el archivo llms.txt
, un manifiesto en Markdown que promete guiar a los LLMs hacia el contenido más valioso. Pero, ¿funciona realmente? ¿Lo respeta alguien? En abril de 2025, John Mueller, portavoz de Google Search, criticó públicamente su validez. En este artículo analizamos su origen, uso y el veredicto de Google.
El archivo llms.txt es un recurso en formato Markdown surgido como propuesta para ayudar a los LLMs a identificar y priorizar las partes más relevantes de un sitio web. A diferencia de robots.txt
, que bloquea o permite el rastreo, llms.txt no regula acceso, sino que resume el contenido esencial, libre de menús, publicidad u otros elementos de navegación, facilitando la lectura por parte de una IA.
La idea fue planteada en noviembre de 2023 por Jeremy Howard, cofundador de Answer.AI, quien describió llms.txt como un manifiesto para control semántico. En los meses siguientes, algunas comunidades tecnológicas y empresas comenzaron a experimentar con su uso:
Aun así, sigue siendo una herramienta experimental, sin estandarización oficial ni adopción masiva.
El formato Markdown de llms.txt sigue una organización clara:
>
): ofrece una descripción breve del propósito/temática.##
): marcan secciones clave, cada una con enlaces relevantes.-
): URLs específicas de contenido prioritario.# Plataforma de datos abiertos
> :contentReference[oaicite:27]{index=27}
## Conjuntos de datos
– :contentReference[oaicite:28]{index=28}
– :contentReference[oaicite:29]{index=29}
## Manuales
– :contentReference[oaicite:30]{index=30}
## Contacto
– :contentReference[oaicite:31]{index=31}
Se publica en la raíz del dominio: https://tusitio.com/llms.txt
.
En abril de 2025, John Mueller, uno de los principales voceros de Google Search, expresó su posición en una discusión en Reddit y también vía Search Engine Journal:
<meta name="keywords">
, un recurso obsoleto y sin impacto: “To me, it’s comparable to the keywords meta tag – this is what a site‑owner claims their site is about … At that point, why not just check the site directly?”.Mostrar un llms.txt limpio y atractivamente estructurado pero distinta experiencia para usuarios o motores de búsqueda podría considerarse práctica de cloaking—es decir, ofrecer contenido distinto a diferentes agentes.
Si los bots no lo consultan, la utilidad es nula. Google lo considera menos importante que herramientas ya existentes.
Un bot que busca entender un sitio podría procesarlo directamente, sin depender de un archivo adicional, y además los datos semánticos ya están en structured data, sitemaps o robots.txt .
Si lo que quieres es controlar cómo ven las IA tu sitio, Google y los expertos recomiendan otras herramientas más eficaces:
Google considera que estas opciones cumplen mejor los objetivos declarados por llms.txt .
Depende de tu perfil y objetivos:
Si más actores lo adoptan (fundaciones, motores de IA, grandes plataformas), podría consolidarse como un estándar. Hoy, todavía no lo es .
Algunas desenvolvedoras (p. ej. Fast.ai, Anthropic) ya lo utilizan en contextos de bots internos, APIs documentales y monitores corporativos .
Podría posicionarse como mecanismo para citar y resumir contenido autorizado, pero solo si es respetado por los modelos. Hoy, esa aceptación no existe.
El archivo llms.txt es una propuesta innovadora para mejorar la comunicación entre sitios web y modelos de IA, resumiendo contenido en Markdown. Sin embargo:
Implementarlo solo si tu sitio ya gestiona documentación o APIs que podrían ser consumidas por bots internos (empresa, herramientas especializadas). Para cualquier estrategia SEO o control de crawlers, prioriza soluciones consolidadas. Mantente al tanto: el ecosistema de IA avanza rápido y este formato podría ganar importancia con el tiempo.
La búsqueda agéntica (o agentic search) representa una evolución radical en cómo interactuamos con la…
A continuación se va a cargar un contenido de un archivo HTML corriente mediante una…
Este texto debería ser lo suficientemente pequeño para que la prueba de mobile realizada por…
Página que acepta fragmentos Página que acepta fragmentos página que obliga a tener fragmento
Soy un cuadro de texto. Haz click en el botón editar para cambiar este texto.…
Petición sin respuesta x-robots-tag Este contenido se carga por AJAX %CODE1%