Дубли страниц в поисковой выдаче: откуда берутся, чем опасны, как убрать? — советы в блоге

9 декабря 2020

Автор: Некстайп Веб-студия

Дубли – это страницы, содержащие одинаковый контент, но открывающиеся под разными URL-адресами. Иногда дубли создаются сознательно, но намного чаще это происходит автоматически, поэтому остается без должного внимания. А, между тем, дублированный контент может очень негативно сказываться на поисковом продвижении.

Фото 1: «Дубли страниц в поисковой выдаче: откуда берутся, чем опасны, как убрать?»

Как появляются дубли в поиске?

Отсутствие базовых редиректов.
Изначально каждая страница сайта доступна по адресу, начинающемуся с www., без данного префикса, а также с /index.html и /index.php в конце. После установки ssl-сертификата сайт также может быть одновременно доступен по http:// и https://. Все эти версии воспринимаются поисковыми системами как дубли.
Поддомены.
Если к сайту были добавлены поддомены, а контент на них не имеет отличий, они считаются версиями одного сайта.
Товары, привязанные к нескольким разделам.
Каталог, подкатегории в котором подогнаны под различные поисковые запросы, удобен для пользователей, и хорошо подходит для поискового продвижения. Но факт, что при такой системе страницы каждого товара, привязанного к 2 или более разделам, открываются под разными URL, нередко не учитывается. Такие страницы воспринимаются поисковыми системами как дубли.
Параметры.
Страницы, содержащие в адресе «/?», которые могут возникать в результате применения сортировки, фильтров, поиска по сайту и т.д. Они также воспринимаются роботами как дублированный контент.

Почему дубли – это плохо?
Причин несколько.

Во-первых, поисковые системы в целом негативно относятся к неуникальному контенту. Если дублей на вашем сайте много, он может ранжироваться на поиске низко, в том числе из-за них.
Во-вторых, находя несколько одинаковых страниц, роботы оставляют в индексе только одну из них. Если не прописаны правила для роботов – любую, которую посчитают нужной. Остальные «версии» перестают показываться в выдаче вообще.
В-третьих, для каждого сайта поисковой системой выделяется определенный краулинговый бюджет – число страниц, которое может быть просканировано за определенный промежуток времени. Краулинговый бюджет определяется востребованностью сайта для пользователей и доступностью сервиса. Но, в любом случае, он не бесконечен, а наличие дублей страниц заставляет его расходоваться впустую.

Как избавиться от дублей, или предотвратить их появление?

Настроить базовые редиректы. Необходимо выбрать главное зеркало сайта, и поставить с остальных перенаправление на него.
При создании поддоменов следить, чтобы контент на них не был идентичным.
Настроить служебные файлы robots.txt и sitemap.xml. В robots.txt задаются рекомендации для обхода сайта роботами, а sitemap содержит пути, по которым осуществляется этот обход. Важно, чтобы эти файлы были настроены корректно, и согласованы между собой: например, в sitemap не должны присутствовать разделы, закрытые от индексации в robots, или ссылки на оставшееся на сайте содержимое демо-версии решения.
Настроить канонические страницы (атрибут rel="canonical";). Канонические адреса позволяют указать, какой из дублей является приоритетным для сканирования. Установка canonical не означает, что остальные адреса проиндексированы не будут – роботы просто будут посещать их реже. Инструкция по настройке канонических URL для элементов инфоблока в Битрикс доступна по ссылке.
Перечисленные действия необходимо производить сразу после запуска сайта или добавления поддоменов, но они будут полезны и давно работающему ресурсу. А если у вас нет времени или желания самостоятельно разбираться в поисковой оптимизации, вы всегда можете обратиться к нам.

Вернуться обратно