Файл robots.txt
Краткая суть
Robots.txt — это табличка "Посторонним вход воспрещен" для интернета. Прежде чем прочитать любую страницу на вашем сайте, робот Гугла или Яндекса обязан сначала постучаться в этот файл (Он всегда лежит по адресу site.com/robots.txt). Если там написано, что в папку /admin/ заходить нельзя, честный поисковый бот развернется и уйдет. Это главный диспетчер доступа к вашему проекту.
Как это работает на практике
Файл состоит из блоков. Сначала вы указываете имя бота (User-agent), а потом даете ему команды:
User-agent: Yandex — Эти правила только для Яндекса.
User-agent: * — Эти правила для ВСЕХ ботов мира.
Disallow: /cart/ — ЗАПРЕЩАЮ сканировать корзину (Бот не будет тратить ресурсы на личные данные).
Allow: /upload/images/ — РАЗРЕШАЮ сканировать картинки.
Sitemap: https://site.com/sitemap.xml — А вот тут лежит карта сайта.
Актуальность в 2026 году
В 2026 году robots.txt стал главным оружием Борьбы с AI-Парсерами. Миллионы мелких ботов от стартапов ежесекундно "пылесосят" интернет, чтобы обучать свои ChatGPT/Midjourney на ваших текстах и картинках (сжигая ресурсы вашего сервера). Владельцы сайтов (особенно новостных) массово добавляют в robots.txt директивы:
User-agent: GPTBot
Disallow: /
Это официально запрещает OpenAI воровать ваш контент для обучения своих LLM.
Как применять на практике
- Если вы создали тестовый сайт (Dev/Staging) по адресу
test.site.com, сразу же, в первую секунду закройте его от индексации железным правилом в robots.txt:User-agent: *Disallow: /
Если вы этого не сделаете, Гугл проиндексирует ваш тестовый сайт, вы получите 100% дубликат вашего боевого домена, и оба сайта полетят под санкции (Пессимизацию за Thin Content).
Частые ошибки
- Закрытие JS (Скриптов) и CSS (Стилей) в файле robots.txt. Это древняя ошибка из 2010 года. Сегодня, если Googlebot не может загрузить CSS-файлы вашего сайта, он "видит" вашу страницу как кривой, сломанный текст без дизайна. Нейросеть Гугла посчитает сайт Не адаптированным для мобильных устройств (Zero Mobile Usability) и выкинет страницу из мобильной выдачи. Бот должен иметь 100% доступ ко всем визуальным файлам!
Последнее обновление термина: 2026 год.