Определение Robots.txt
Текстовый файл, расположенный в корневой директории сайта по адресу yourdomain.com/robots.txt, который содержит инструкции для поисковых роботов о том, какие разделы сайта можно индексировать, а какие следует игнорировать. Это один из старейших стандартов веба, созданный в 1994 году и остающийся актуальным инструментом управления поведением поисковых ботов.
Файл работает через систему простых директив. User-agent указывает, к какому роботу обращается правило, Disallow определяет запрещенные для сканирования пути, а Allow разрешает доступ к определенным разделам. Например, директива User-agent: * в сочетании с Disallow: /admin/ запретит всем поисковым роботам доступ к административной панели сайта.
В поисковом продвижении robots.txt выполняет функцию управления краулинговым бюджетом. Когда у интернет-магазина тысячи страниц с фильтрами и дублированным контентом, правильно настроенный файл направляет внимание Googlebot на важные страницы, предотвращая растрату ресурсов на сканирование второстепенных разделов. В арбитражном трафике файл используется на дорвейных проектах и сайтах с клоакингом для точного контроля над тем, какой контент видят поисковые роботы.
Обязательной практикой является указание пути к карте сайта через директиву Sitemap: https://yourdomain.com/sitemap.xml. Это базовый элемент технической оптимизации, который помогает поисковикам эффективнее индексировать ресурс.
Основная опасность заключается в случайном блокировании важных разделов сайта. Классическая ошибка — копирование настроек с тестового сервера на рабочий сайт, когда директива Disallow: / полностью исключает ресурс из индексации. Результатом становится потеря позиций и видимости в поисковых системах. Важно понимать, что robots.txt носит рекомендательный характер и не является средством защиты — недобросовестные боты могут игнорировать его содержимое. Для реальной защиты конфиденциальной информации необходимо использовать парольную авторизацию и серверные ограничения доступа.
📝 Определение написано простым языком — чтобы было понятно с первого прочтения. Все термины →
Часто задаваемые вопросы
Что такое robots.txt и зачем он нужен? ▾
Robots.txt — текстовый файл в корне сайта с инструкциями для поисковых роботов: какие страницы индексировать, а какие игнорировать. Нужен для управления краулинговым бюджетом и скрытия служебных разделов от поиска.
Как проверить robots.txt своего сайта? ▾
Просто откройте браузер и перейдите по адресу yourdomain.com/robots.txt — файл должен отдаваться как обычный текст. Также его можно проверить через Google Search Console в разделе «Инструмент проверки robots.txt».
Закрывает ли robots.txt страницы от индексации надёжно? ▾
Нет, директивы в robots.txt носят рекомендательный характер — добросовестные роботы их соблюдают, но злоумышленники или сторонние краулеры могут игнорировать. Для надёжного закрытия контента используйте тег noindex или парольную защиту.
Как добавить Sitemap в robots.txt? ▾
В конце файла добавьте строку: Sitemap: https://yourdomain.com/sitemap.xml — это подскажет роботам, где искать карту сайта, и ускорит индексацию.
Что будет, если закрыть весь сайт через robots.txt? ▾
Если прописать Disallow: / для всех агентов, поисковые роботы перестанут сканировать сайт, и он постепенно выпадет из индекса. Это одна из самых частых и критичных ошибок при переносе настроек со staging-окружения на продакшн.
Связанные термины
2FA (Two-Factor Authentication) — двухфакторная аутентификация: вход в аккаунт ч...
3D-Secure — это такая хрень, которая появилась, чтобы защитить нас, бедных арбит...
Ads.txt — текстовый файл в корне сайта (или домена разработчика для приложений),...
AJAX — технология асинхронного обмена данными с сервером без перезагрузки страни...
API-токен — это твой цифровой пропуск в систему: уникальная строка символов, кот...
Click Hijacking — это метод атаки, при котором злоумышленники размещают на стран...