Robots.txt – это простой текстовый файл, который играет очень важную роль в SEO. С помощью специальных указаний, которые в нем содержатся, можно управлять индексацией сайта поисковыми роботами. А точнее – позволять или запрещать индексацию отдельных страниц, категорий и сайта в целом.
В отличие от многих других вещей, которые касаются области поисковой оптимизации, здесь все четко и понятно – поисковые системы однозначно говорят о том, что данный файл должен быть на сайте, а в официальных справках содержится соответствующая информация по теме его настройки.
Находится файл robotx.txt в корневой папке сайта — это единственное место, в котором он может быть расположен. Это, кстати, позволяет легко посмотреть, как он выглядит на любом другом сайте – достаточно набрать в адресной строке браузера URL такого вида: http://yoursite.com/robots.txt
Важно знать, что в некоторых случаях, даже несмотря на наличие прямого указания относительно того, включать или не включать определенные данные с сайта в индекс, поисковые роботы могут проигнорировать его. Google подчеркивает, что информация из этого файла воспринимается исключительно как рекомендация, а не обязательный момент. Но на практике подобное бывает редко.
Для чего нужен robots.txt?
На любом сайте, кроме информации, предназначенной непосредственно для посетителей, присутствует и другой контент. Например, служебные страницы, автогенерируемые URL, изображения, скрипты и т. д. И далеко не все это владелец сайта хотел бы видеть доступным в поисковом индексе. Как я уже писал, именно для этого и используется данный файл – указать поисковым роботам, какие страницы нужно показывать в поиске, а какие нет.
Например, в robots.txt, который показан на скриншоте ниже, роботу Яндекса запрещено показывать в индексе страницы авторизации и регистрации WordPress, административную часть, вложения, страницы авторов и т. д.:
Директивы robots.txt
Файл имеет строго определенный синтаксис, и малейшая ошибка в символах делает строку, в которой она допущена, неработающей. Например, при указании основного зеркала сайта его адрес нужно прописывать без http:// и закрывающего слеша. Если сделать наоборот – это будет некорректно, а значит, она просто не будет работать.
Основные директивы, которые используются в robots.txt, одинаковы для всех роботов:
- User-agent – указания для конкретного робота (Google, Яндекс).
- Disallow – запрещает индексацию всего сайта или отдельной его части.
- Allow – разрешает выборочную индексацию отдельной части сайта.
- Host – позволяет указать главное зеркало сайта.
- Sitemap — указывает путь к файлу карты сайта.
- Clean-param – если на сайте есть адрес с динамическими параметрами, но одинаковым контентом, данная директива позволяет указать, что разные значения определенного параметра стоит воспринимать как один и тот же URL.
- Crawl-delay – позволяет указать диапазон времени между повторным посещением сайта роботом, что может быть продиктовано необходимостью снизить нагрузку на сервер.
Примеры использования
Итак, сами директивы мы перечислили, а теперь давайте рассмотрим их применение на практике. Смотрим примеры ниже.
Разрешить всем поисковым роботам доступ ко всему сайту:
Запретить индексацию всего сайта для всех поисковых роботов:
Разрешить доступ одному роботу (Яндекс) и запретить для всех остальных:
Запретить индексацию одной папки или конкретной страницы:
Запретить индексацию папки, но позволить индексировать конкретный документ, который в ней находится:
Есть и более сложные примеры директив. Например, с помощью следующей конструкции можно запретить поисковику индексировать страницы, которые содержат в своем URL знаки вопроса:
Обычно знаки вопроса содержатся в автогенерируемых страницах, которые выдаются CMS в ответ на какой-то запрос пользователя (поиск, фильтр), и на них дублируется основной контент. Таким образом, запрещая их индексацию, владелец сайта может избежать появления дублей в выдаче, а значит, и возможных санкций.
Директив для роботов в этом файле может быть очень много, как говорится, на все случаи жизни. Например, вот как выглядит robots.txt на известном сайте Ain.ua, который работает на базе WordPress:
Как видите, список здесь немалый – 34 строки!
Что интересно, все эти настройки можно сделать с помощью специального плагина для WordPress — “Yoast SEO”, который сразу вставляет в код, активирует канонические адреса и избавляет от необходимости прописывать множество директив в самом файле.
Каким должен быть правильный robots.txt?
Содержимое файла robots.txt отличается в зависимости от типа сайта (интернет-магазин, блог), используемой CMS, особенностей структуры и ряда других факторов. Поэтому заниматься созданием данного файла для коммерческого сайта, особенно если речь идет о сложном проекте, должен SEO-специалист с достаточным опытом работы.
Неподготовленный человек, скорее всего, не сможет принять правильного решения относительно того, какую часть содержимого лучше закрыть от индексации, а какой позволить появляться в поисковой выдаче.
Например, вот как выглядит хороший robots.txt для сайта под управлением WordPress, ориентированного на продвижение в поисковых системах Google и Яндекс, который монетизируется с помощью Google AdSense:
Для сложного по структуре и высоконагруженного проекта, который работает на CMS Joomla:
А также для еще одного популярного движка – Drupal:
В целом можно вывести несколько правил, с учетом которых можно создать оптимальный robots.txt именно для вашего сайта:
- первой в списке всегда идет директива User-agent, потом – Disallow (менять их местами нельзя);
- инструкция Disallow должна присутствовать в файле обязательно, даже если вы не собираетесь ничего запрещать – в таком случае просто оставьте ее пустой;
- текст пишется только в нижнем регистре;
- текст нельзя переносить в новую строку;
- если нужно запретить индексацию папки, перед ее названием обязательно нужно поставить знак слеш «/»;
- в каждой директиве (disallow/allow) указывается только одна директория или файл.
Как проверить robots.txt на ошибки
Допустить ошибку случайно может даже опытный специалист просто из-за невнимательности в определенный момент работы. Что уж тут говорить о новичках, которые порой вместо того, чтобы открыть сайт для индексации, запрещают ее, а потом удивляются, почему так долго нет трафика с Google.
Таких примеров существует немало, поэтому, чтобы избежать подобных проблем, можно воспользоваться специальными инструментами для проверки robots.txt, которые предоставляют веб-мастерам сами поисковые системы.
В Google Search Console для того, чтобы убедиться в корректности данного файла, нужно перейти в раздел «Сканирование», нажать на него и выбрать в меню пункт «Инструмент проверки файла robots.txt»:
Как видно на приведенном примере, ошибок у нас нет. Для того чтобы выполнить аналогичную задачу в Яндекс.Вебмастер, необходимо в разделе «Инструменты» выбрать пункт «Анализ robots.txt» и выбрать нужный из списка проектов, добавленных вами в эту панель:
Вывод
Файл robots.txt – отличный инструмент для управления индексацией веб-проектов, предоставленный владельцам сайтов поисковыми системами. И для сложных проектов это настоящая панацея, ведь с его помощью можно «спрятать» от поисковых роботов все ненужное, при этом реализовав на сайте весь требуемый функционал.
Но необходимо иметь в виду, что, несмотря на кажущуюся простоту работы с данным файлом, даже одна маленькая ошибка в нем может причинить много вреда. Поэтому, если вы не уверены в своих знаниях, лучше не экспериментировать со сложными конструкциями и директивами, а обратиться за помощью к специалисту или просто открыть для индексации весь сайт.
Доброго дня, під скажіть будь ласка як правильно скласти роботс текст для платформи bloger, щоби пошуковий бот сканував переспрямування з http на https
бо при запиті на сканування сторінки пише переспрямовано
Доброго дня! Не вкурсі які там налаштування дозволені. Може це допоможе https://support.google.com/blogger/answer/6284029?hl=ru