Noindex и Nofollow - cпособы закрытия страниц от индексации

Закрытие страниц от индексации поисковыми системами - это процесс, при котором владелец сайта намеренно ограничивает доступ поисковых роботов к определенным страницам. Это означает, что закрытые страницы не будут появляться в результатах поиска, даже если они физически существуют на сайте.

Такая практика важна для многих веб-ресурсов, поскольку позволяет контролировать, какие страницы будут видны пользователям в поисковой выдаче, а какие нет. Закрытие ненужных страниц помогает сосредоточить внимание поисковых систем и пользователей на действительно важном контенте, избежать дублирования и оптимизировать индексацию сайта.

Существует несколько основных способов закрытия страниц от индексации:

Использование атрибута rel="canonical"
Закрытие через файл robots.txt
Применение мета-тега robots с параметрами noindex и nofollow
и другие методы, которые мы подробнее рассмотрим далее.

Грамотное использование этих инструментов позволяет управлять тем, как поисковые системы воспринимают и ранжируют сайт, что в конечном итоге влияет на его видимость и органический трафик. Поэтому понимание принципов закрытия страниц от индексации - важный навык для всех, кто занимается SEO и веб-разработкой.

Зачем закрывать страницы от индексации поисковыми системами?

Есть несколько веских причин, по которым веб-мастера и SEO-специалисты прибегают к закрытию определенных страниц сайта от индексации поисковыми системами:

Удаление нежелательных страниц из индекса поисковиков. Если на сайте есть страницы, которые не несут ценности для пользователей и могут негативно влиять на оценку качества сайта поисковыми системами, их лучше закрыть от индексации. Это могут быть, например, дубликаты страниц, временные акционные страницы после завершения акций, страницы с тонким контентом.
Управление количеством индексируемых страниц. Большое количество низкокачественных или неактуальных страниц в индексе может размывать общую релевантность сайта. Закрывая такие страницы, вы даете сигнал поисковым роботам сосредоточиться на действительно важных разделах сайта. Так, на сайте интернет-магазина с сотнями тысяч товаров имеет смысл закрывать от индексации страницы не актуальных товаров.
Экономия краулингового бюджета. У каждого сайта есть определенный лимит страниц, которые поисковый робот может обойти за один визит. Тратить этот лимит на сканирование ненужных страниц - непродуктивно. Закрытие их от индексации позволяет направить краулинговый бюджет на приоритетные разделы. Например, закрывая служебные страницы с дублирующимися параметрами фильтров, вы освобождаете ресурсы робота для сканирования основных.
Скрытие технических и служебных страниц. На многих сайтах есть страницы, предназначенные для внутреннего использования, например, тестовые страницы, страницы администраторов, корзины интернет-магазинов. Появление таких страниц в выдаче нежелательно, поэтому их закрывают от индексации.
Защита контента от копирования. Закрытие страниц, содержащих уникальный ценный контент, от индексации затрудняет его копирование конкурентами. Они попросту не смогут найти эти страницы через поисковые системы. Но важно понимать, что полностью защитить контент этот метод не может.
Сокрытие приватной информации. Если на сайте есть страницы с персональными данными пользователей, внутренней документацией компании или другой информацией, которая не должна быть в открытом доступе, их обязательно нужно закрывать от индексации.

Использование атрибута rel="canonical"

Атрибут rel="canonical" - это специальный атрибут HTML-ссылки, который указывает поисковым системам на основную (каноническую) версию страницы. Его используют, когда на сайте есть несколько страниц с похожим контентом, чтобы избежать проблем с дублированием.

Вот как работает rel="canonical" для закрытия страниц от индексации:

На основной странице, которая должна быть проиндексирована, не нужно ничего добавлять.
На всех второстепенных страницах с похожим контентом нужно разместить ссылку на основную страницу с атрибутом rel="canonical". Например: <link rel="canonical" href="https://site.com/main-page" />
Поисковые роботы, обнаружив такую ссылку, поймут, что эта страница - не основная, и либо не будут индексировать ее, либо исключат из выдачи в пользу канонической.

Преимущества использования rel="canonical"

Помогает избежать дублирования контента и связанных с ним проблем (склейка страниц, понижение в выдаче).
Консолидирует ссылочную массу и другие сигналы ранжирования (лайки, комментарии) на основной странице.
Простой в реализации - достаточно добавить одну строчку кода на нужные страницы.
Не запрещает индексацию страницы полностью, а лишь указывает на основную версию. Если по каким-то причинам основная страница будет недоступна, поисковик может проиндексировать и показать альтернативную.

Недостатки использования rel="canonical"

Поисковые роботы воспринимают rel="canonical" как сигнал, а не директиву. То есть они могут проиндексировать вторичные страницы, несмотря на наличие этого атрибута, если посчитают это необходимым.
Если страницы имеют существенные отличия в контенте, использование rel="canonical" может привести к потере трафика. Поисковики будут считать эти страницы одинаковыми и показывать только основную, даже если запрос пользователя больше соответствует одной из вторичных страниц.
Ошибки в указании адреса канонической страницы (например, если указать несуществующий URL) могут привести к исключению страницы из индекса или другим проблемам.

Поэтому rel="canonical" стоит использовать в тех случаях, когда страницы действительно дублируют друг друга, например, на сайтах с сессионными идентификаторами в URL или для объединения страниц с WWW и без WWW. Но для закрытия уникальных страниц лучше использовать другие методы.

Закрытие страниц через файл robots.txt

Файл robots.txt - это специальный текстовый файл в корневой директории сайта, который содержит инструкции для поисковых роботов. С его помощью можно закрывать от индексации отдельные страницы или целые разделы сайта.

Вот как это работает:

В файле robots.txt с помощью специальных директив указываются URL страниц или папок, которые нужно исключить из индексации.
Поисковые роботы, прежде чем начать сканирование сайта, обращаются к файлу robots.txt и читают эти инструкции.
Если робот находит в файле директиву, запрещающую доступ к определенной странице или разделу, он не будет сканировать и индексировать их.

Синтаксис и примеры использования robots.txt

Вот базовый синтаксис файла robots.txt: User-agent: [имя робота или *] Disallow: [URL страницы или папки].

Директива User-agent указывает, к какому роботу применяются последующие инструкции. Значение * означает все роботы.

Директива Disallow указывает, какие URL запрещены для сканирования.Например: User-agent: * Disallow: /private/ Disallow: /temp-page.html

Эти инструкции запрещают всем роботам доступ к папке /private/ и странице /temp-page.html.

Можно указывать более сложные шаблоны URL, например, с помощью специального символа *: User-agent: * Disallow: /*?*sort=

Это запретит индексацию всех страниц, в URL которых есть параметр sort=, например /category/shoes?sort=price.

Преимущества закрытия через robots.txt

Простота реализации - достаточно создать текстовый файл и добавить несколько строк.
Работает для всех основных поисковых систем.
Позволяет закрывать от индексации целые разделы сайта (папки) одной директивой.
Не требует изменений в коде страниц.

Недостатки закрытия через robots.txt

Файл robots.txt является публичным, так что все могут увидеть, какие страницы вы пытаетесь скрыть. Для конфиденциальной информации это не подходит.
Некоторые недобросовестные роботы могут игнорировать инструкции файла и все равно сканировать запрещенные страницы.
Если страница уже была проиндексирована до добавления ее в robots.txt, она не исчезнет из индекса мгновенно. Поисковые системы постепенно обновляют свои базы, удаляя страницы, к которым больше нет доступа.
Если ссылки на закрытые страницы есть на других сайтах или в социальных сетях, они все равно могут передавать вес этим страницам, даже если те не индексируются.

Поэтому robots.txt лучше всего подходит для технических страниц (например, страниц фильтров или сортировки в интернет-магазинах), которые не несут самостоятельной ценности для пользователей. А для важного контента лучше использовать другие методы закрытия.

Мета-тег robots с параметрами noindex и nofollow

Мета-тег <meta name="robots" content="..."> помещается в раздел <head> HTML-страницы и содержит инструкции для поисковых роботов. С его помощью можно закрыть отдельную страницу от индексации и запретить переход по ссылкам с нее.

Наиболее важные для закрытия страниц значения атрибута content:

noindex - запрещает индексирование текущей страницы. Робот может crawl эту страницу, но не добавит ее в индекс.
nofollow - запрещает переходить по ссылкам с текущей страницы. Страница может быть проиндексирована, но вес через ссылки с нее передаваться не будет.

Эти значения можно комбинировать:

<meta name="robots" content="noindex, nofollow"> - запретит и индексацию страницы, и переход по ее ссылкам.
<meta name="robots" content="noindex, follow"> - запретит индексацию, но разрешит переходить по ссылкам. Полезно, когда страница сама по себе не важна, но содержит ссылки на ценный контент.

Есть и другие возможные значения (например, noarchive, nosnippet), но они не относятся напрямую к закрытию от индексации.

Вместо общего тега robots можно использовать более специфичные теги для отдельных поисковых систем:

<meta name="googlebot" content="..."> - инструкции только для Google.

Это позволяет тонко настроить видимость страницы для разных поисковиков.

Преимущества закрытия страниц с помощью мета-тегов

Дает более тонкий контроль, чем robots.txt - можно закрывать отдельные страницы, а не только разделы.
Позволяет управлять не только индексацией, но и прохождением ссылочного веса (через nofollow).
Инструкции в мета-тегах не являются публичными, в отличие от robots.txt.
Можно давать разные инструкции разным поисковикам через специфичные мета-теги.

Недостатки использования мета-тегов

Требуется добавлять теги на каждую страницу отдельно, что может быть трудозатратно для больших сайтов. Это можно частично автоматизировать на уровне CMS или шаблонов страниц.
Как и в случае с файлом robots.txt, если страница уже была проиндексирована до добавления мета-тегов, она останется в индексе до следующего crawl поисковым роботом.
Теги noindex и nofollow воспринимаются поисковиками как сигналы, а не безусловные директивы. В редких случаях страница может быть проиндексирована, даже если на ней стоит noindex.

В целом мета-теги - мощный и гибкий инструмент для управления индексацией, но им нужно пользоваться аккуратно. Случайно поставив noindex на важную страницу, можно потерять большое количество трафика.