0 Вы только узнали
% информации

Googlebot пытается сканировать 16 млн заблокированных страниц. Что делать?

Generic selectors
Exact matches only
Search in title
Search in content
Search in posts
Search in pages

Меня зовут Андрей Чорный и сейчас я расскажу что делать, если Google сканирует заблокированы страницы. Недавно мне коллеги прислали информацию, что есть проблема с сайтом. Проблема заключалась в том, что Google сканирует 700 000 — 16 000 000 дублированных страниц.

Что у нас есть по вступительной части этого сайта?

Никаких проблем нет, все сделано логично, то есть спамов не обнаружено или проблем в ошибках SEO.

  1. Сайту один год. С ним начали работать в 2019 году.
  2. Тематика достаточно мощная, поскольку сейчас он занимает много, где первые места в ТОП Google.
  3. В ссылках спама нет.
  4. Все закрыто в Robots.txt и meta noindex.
  5. XML карта сайта хорошо сделана.

Сайт занимает первые места, за последний год вырос в 10 раз.

Какие происходят действия при анализе сканирования страниц Google?

Действие 1. Google сканирует заблокированы страницы, цифра достигает 16 000 000. Страницы растут каждые 6 дней и здесь написано, что все эти страницы заблокированы. Не понятно почему так.

Действие 2. В логах обнаружено большое количество IP-Googlebot на сервере. Все остальные, что мы проверяли действительно в запросах от Google.

Действие 3. Информация по самым логах, очевидно, что 19067 страниц это примерно 26 строк на одну страницу. Это почти полмиллиона запросов от Google в день.

Действие 4. На сервере безумно растет нагрузка. Если в обычный день это было 30-34, то сейчас нагрузка возросла более 1000 раз. Благодаря специалистам и правильным настройкам, сервер выдержал это. Факт того, что нет никакой 503 ошибки. Настройки сделаны понятно и логично. Сервер Ukraine, я его рекомендую, уже много лет используем и все супер.

Действие 5. Обнаружено странные ссылки. Из примера видно, что фильтра необычно сформированы, поскольку сегментов 28. То есть, если будет на 1-2 меньше слешей, получается 25-26 сегментов, зависит от размера. Очень странные ссылки, получается что Google заходит слишком далеко, на самом деле такого не бывает. На других проектах такого нет, посмотрев на другие сайты у всех есть такая ситуация, но с гораздо меньшими объемами 10-100 тыс. Страниц, но не 16-22 млн. Во всех можно такое сгенерировать и получается, что здесь сразу появляется много «но», как такое могло произойти? Иногда бывает, что SEO специалист сложно продвигает 3-4-5 уровень, а здесь 25 уровень от главной страницы. Это очень глубоко. По действительно Google нет так глубоко смотреть и здесь возникает мысль, что кто-то специально это сделал, то есть конкуренты могли это заспамиты. При проверке было обнаружено ссылки с двумя слэш, а значит ссылки действительно могли сгенерировать.

Рассмотрев позиции, здесь наглядно можно увидеть цифру 19,3. А это значит, что очень много запросов в ТОП 10, достаточно большой объем трафика.

Какие могут быть в этом решении?

  1. Проверить на сайте Plerdy, подсоединив SEO checker. Еще раз проверить сайт, если у вас произошла такая ситуация и искать какие-то определенные аномалии.
  2. Просто ждать, когда придет нагрузка через некоторое время, но это плохой вариант.
  3. Добавить еще noindex nofollow. Можно добавить еще одну защиту, поскольку Google видит дополнительно индекс, который настраивается на сервере. Честно, мы его добавили, но нагрузка не уменьшилось, хотя некоторые специалисты говорили, что оно может уменьшить нагрузку.
  4. Ограничить запросы в секунду от Googlebot, было 8, сделали 2 Эта вещь хорошо сработала, хотя не существенно, но было получено определенный результат. Хотя существенных проблем с сервером не было.
  5. Представить отчет о багах Googlebot, сделали. Это также было сделано. Ссылки оставлю внизу:
  6. Подсоединить сервис Cloudflare. Еще один вариант, поскольку мы проверили, но не все IP-адрес, то есть они где-то могут попадаться от спамеров. Это могут быть псевдо Googlebot, поэтому нужно подключать Cloudflare. Это очень классный сервис от DoS-атаки. Когда мы его подключали, он действительно очень хорошо сработал, блокирует часть ботов, хороших ботов он не блокирует. И продвижение на основе него идет без проблем.

Когда есть такой риск все равно нужно что-то делать. Что бы здесь не сработало, если бы не было — это сервер. Если сервер у вас очень слабый, то вы потеряете высокие позиции, а также можно было получить много 503 ошибок, то есть вы бы потеряли бы прибыль.

Если у Вас возникли вопросы, оставляйте комментарии или пишите мне в социальных сетях:

Я с радостью Вам отвечу и помогу улучшить конверсию Вашего интернет-магазина.

Задать вопрос

Оставьте вопрос или комментарий к статье:

Ваш адрес email не будет опубликован. Обязательные поля помечены *