We stand for 🇺🇦 Ukraine. You can find more information and donate here

0Ви дізнались тільки
% інформації

Правильний robots.txt – керуємо індексацією сайту

Generic selectors
Exact matches only
Search in title
Search in content

Robots.txt – це простий текстовий файл, який відіграє дуже важливу роль у SEO. За допомогою спеціальних вказівок, які в ньому містяться, можна керувати індексацією сайту пошуковими роботами. А точніше – дозволяти або забороняти індексацію окремих сторінок, категорій і сайту в цілому.
На відміну від багатьох інших речей, які стосуються сфери пошукової оптимізації, тут все чітко і зрозуміло – пошукові системи однозначно говорять про те, що цей файл повинен бути на сайті, а в офіційних довідках міститься відповідна інформація за темою його налаштування.

Розміщений файл robotx.txt у кореневій папці сайту – це єдине місце, в якому він може бути розташований. Це, до речі, дозволяє легко подивитися, як він виглядає на будь-якому іншому сайті – достатньо набрати в адресному рядку браузера URL такого виду: http://yoursite.com/robots.txt

Важливо знати, що в деяких випадках, навіть незважаючи на наявність прямої вказівки щодо того, залучати чи не залучати певні дані з сайту в індекс, пошукові роботи можуть проігнорувати його. Google підкреслює, що інформація з цього файла сприймається лише як рекомендація, а не обов’язковий момент. Але на практиці таке буває рідко.

Для чого потрібен robots.txt?

На будь-якому сайті, крім інформації, призначеної безпосередньо для відвідувачів, є й інший контент. Наприклад, спеціальні сторінки, автогенеровані URL, зображення, скрипти і т. д. І далеко не все це власники сайту хотіли би бачити доступним у пошуковому індексі. Як я вже писав, саме для цього і використовується цей файл – вказати пошуковим роботам, які сторінки потрібно показувати в пошуку, а які ні.

Наприклад, в robots.txt, який показаний на скриншоті нижче, роботу Яндекса заборонено показувати в індексі сторінки авторизації та реєстрації WordPress, адміністративну частину, вкладення, сторінки авторів і т. д.:

96ccc0fdbdeb49f98320c2e229f87c15

Директиви robots.txt

Файл має строгий синтаксис, і найменша помилка в символах робить рядок, у якому вона допущена, неправильним. Наприклад, при вказанні основного дзеркала сайту його адресу потрібно прописувати без http: // і закриваючого слеша. Якщо зробити навпаки – це буде неправильно, а значить, інструкція просто не буде працювати.

91f819524a16406299b06137406fa501

Основні директиви, які використовуються в robots.txt, однакові для всіх роботів:

  • User-agent – вказівки для конкретного робота (Google, Яндекс).
  • Disallow – забороняє індексацію всього сайту або окремої його частини.
  • Allow – дозволяє вибіркову індексацію окремої частини сайту.
  • Host – дозволяє вказати головне дзеркало сайту.
  • Sitemap – вказує шлях до файла карти сайту.
  • Clean-param – якщо на сайті є адреса з динамікою, але однаковим контентом, ця директива дозволяє вказати, що різні значення певного параметра варто сприймати як один і той самий URL.
  • Crawl-delay – дозволяє вказати діапазон часу між повторним відвідуванням сайту роботом, що може бути продиктовано необхідністю знизити навантаження на сервер.

Приклади використання

Отже, самі директиви ми перерахували, а тепер давайте розглянемо їхнє застосування на практиці. Дивимося приклади нижче.

Дозволити всім пошуковим роботам доступ до всього сайту:

c95108968dbd408b85abe6eab0dd7897

Заборонити індексацію всього сайту для всіх пошукових роботів:

c77b6b29c6254f5198f9645757af142d

Дозволити доступ одному роботу (Яндекс) і заборонити для всіх інших:

b3f1e29c38814dbca137246cefacb037

Заборонити індексацію однієї папки або конкретної сторінки:

db78a42744624a46b255654862d6c2e8

Заборонити індексацію папки, але дозволити індексувати конкретний документ, який у ній розміщений:

e54b72170c744e7e88b4dfccfeda70dc

Є й більш складні приклади директив. Наприклад, за допомогою цієї конструкції можна заборонити пошуковику індексувати сторінки, які містять у своєму URL знаки питання:

025a60324fba47218eb88783ca1da506

Зазвичай знаки питання містяться в автогенерованих сторінках, які видаються CMS у відповідь на якийсь запит користувача (пошук, фільтр), і на них дублюється основний контент. Таким чином, забороняючи їхню індексацію, власник сайту може уникнути появи дублів у видачі, а значить, і можливих санкцій.

Директив для роботів у цьому файлі може бути дуже багато, так би мовити, на всі випадки життя. Наприклад, ось як виглядає robots.txt на відомому сайті Ain.ua, який працює на базі WordPress:

fbbffbde32a44c15a05598a10789be9d

Як бачите, список тут чималий – 34 рядки!

Що цікаво, всі ці налаштування можна зробити за допомогою спеціального плагіна для WordPress – “Yoast SEO“, який відразу вставляє в код, активує канонічні адреси та позбавляє потреби прописувати безліч директив у самому файлі.

Яким повинен бути правильний robots.txt?

Вміст файла robots.txt відрізняється залежно від типу сайту (інтернет-магазин, блог), використовуваної CMS, особливостей структури і ряду інших чинників. Тому займатися створенням цього файла для комерційного сайту, особливо якщо йдеться про складний проект, повинен SEO-фахівець із достатнім досвідом роботи.

Людина без спеціальної підготовки, найімовірніше, не зможе правильно вирішити те, яку частину вмісту краще закрити від індексації, а якій дозволити з’являтися в пошуковій видачі.

Наприклад, ось як виглядає хороший robots.txt для сайту під керуванням WordPress, орієнтованого на просування в пошукових системах Google і Яндекс, що монетизується за допомогою Google AdSense:

b0fb02012cf74aceb576c6d047d39a12

Для складного за структурою і високонавантаженого проекту, який працює на CMS Joomla:

bf5da15da9ea4eeda75b72ce11d83305

А також для ще одного популярного движка – Drupal:

b7287f796d124a7fbd38a4aa4d3721d5

У цілому можна вивести кілька правил, з урахуванням яких можна створити оптимальний robots.txt саме для вашого сайту:

  • першою в списку завжди йде директива User-agent, потім – Disallow (міняти їх місцями не можна);
  • інструкція Disallow має бути в файлі обов’язково, навіть якщо ви не збираєтеся нічого забороняти – в такому випадку просто залиште її порожньою;
  • текст пишеться тільки в нижньому регістрі;
  • текст не можна переносити в новий рядок;
  • якщо потрібно заборонити індексацію папки, перед її назвою обов’язково потрібно поставити знак слеш «/»;
  • у кожній директиві (disallow / allow) вказується тільки одна директорія або файл.

Як перевірити robots.txt на помилки

Припуститися помилки випадково може навіть досвідчений фахівець просто через неуважність у певний момент роботи. Що вже тут говорити про новачків, які часом замість того, щоб відкрити сайт для індексації, забороняють її, а потім дивуються, чому так довго немає трафіку з Google.

Таких прикладів можна навести чимало, тому, щоб уникнути таких проблем, можна скористатися спеціальними інструментами для перевірки robots.txt, які надають веб-майстрам самі пошукові системи.

У Google Search Console для того, щоб переконатися в правильності цього файла, потрібно перейти в розділ «Сканування», натиснути на нього і вибрати в меню пункт «Інструмент перевірки файла robots.txt»:

c2e3681b1107431bacd910c5c2f04cb2

Як видно на наведеному прикладі, помилок у нас немає. Для того щоб виконати аналогічне завдання в Яндекс.Вебмайстер, необхідно в розділі «Інструменти» вибрати пункт «Аналіз robots.txt» і вибрати потрібний зі списку проектів, доданих вами в цю панель:

c9c3059ee3a3492f98d9ae64246eda11

Висновок

Файл robots.txt – відмінний інструмент для керування індексацією веб-проектів, наданий власникам сайтів пошуковими системами. І для складних проектів це справжня панацея, адже за його допомогою можна «заховати» від пошукових роботів все непотрібне, при цьому реалізувавши на сайті весь необхідний функціонал.

Але необхідно мати на увазі, що, незважаючи на уявну простоту роботи з цим файлом, навіть одна маленька помилка в ньому може заподіяти багато шкоди. Тому, якщо ви не впевнені в своїх знаннях, краще не експериментувати зі складними конструкціями і директивами, а звернутися за допомогою до фахівця або просто відкрити для індексації весь сайт.

  • Автор: Володимир Федоричак
Задати запитання
2 коментаря(ів)
  1. Богдан

    Доброго дня, під скажіть будь ласка як правильно скласти роботс текст для платформи bloger, щоби пошуковий бот сканував переспрямування з http на https
    бо при запиті на сканування сторінки пише переспрямовано

Залишіть запитання чи коментар до статті:

Your email address will not be published. Required fields are marked *