Noindex і Nofollow - способи закриття сторінок від індексації

Закриття сторінок від індексації пошуковими системами - це процес, за якого власник сайту навмисно обмежує доступ пошукових роботів до певних сторінок. Це означає, що закриті сторінки не з'являтимуться в результатах пошуку, навіть якщо вони фізично існують на сайті.

Така практика важлива для багатьох веб-ресурсів, оскільки дає змогу контролювати, які сторінки буде видно користувачам у пошуковій видачі, а які ні. Закриття непотрібних сторінок допомагає зосередити увагу пошукових систем і користувачів на справді важливому контенті, уникнути дублювання та оптимізувати індексацію сайту.

Існує кілька основних способів закриття сторінок від індексації:

Використання атрибута rel="canonical"
Закриття через файл robots.txt
Застосування мета-тега robots з параметрами noindex і nofollow
та інші методи, які ми докладніше розглянемо далі.

Грамотне використання цих інструментів дає змогу керувати тим, як пошукові системи сприймають і ранжирують сайт, що в кінцевому підсумку впливає на його видимість і органічний трафік. Тому розуміння принципів закриття сторінок від індексації - важлива навичка для всіх, хто займається SEO та веб-розробкою.

Навіщо закривати сторінки від індексації пошуковими системами?

Є кілька вагомих причин, через які веб-майстри та SEO-фахівці вдаються до закриття певних сторінок сайту від індексації пошуковими системами:

Видалення небажаних сторінок з індексу пошукових систем. Якщо на сайті є сторінки, які не несуть цінності для користувачів і можуть негативно впливати на оцінку якості сайту пошуковими системами, їх краще закрити від індексації. Це можуть бути, наприклад, дублікати сторінок, тимчасові акційні сторінки після завершення акцій, сторінки з тонким контентом.
Управління кількістю індексованих сторінок. Велика кількість низькоякісних або неактуальних сторінок в індексі може розмивати загальну релевантність сайту. Закриваючи такі сторінки, ви даєте сигнал пошуковим роботам зосередитися на дійсно важливих розділах сайту. Так, на сайті інтернет-магазину з сотнями тисяч товарів має сенс закривати від індексації сторінки не актуальних товарів.
Економія краулінгового бюджету. У кожного сайту є певний ліміт сторінок, які пошуковий робот може обійти за один візит. Витрачати цей ліміт на сканування непотрібних сторінок - непродуктивно. Закриття їх від індексації дає змогу спрямувати краулінговий бюджет на пріоритетні розділи. Наприклад, закриваючи службові сторінки з дублюючими параметрами фільтрів, ви звільняєте ресурси робота для сканування основних.
Приховування технічних і службових сторінок. На багатьох сайтах є сторінки, призначені для внутрішнього використання, наприклад, тестові сторінки, сторінки адміністраторів, кошики інтернет-магазинів. Поява таких сторінок у видачі небажана, тому їх закривають від індексації.
Захист контенту від копіювання. Закриття сторінок, що містять унікальний цінний контент, від індексації ускладнює його копіювання конкурентами. Вони просто не зможуть знайти ці сторінки через пошукові системи. Але важливо розуміти, що повністю захистити контент цей метод не може.
Приховування приватної інформації. Якщо на сайті є сторінки з персональними даними користувачів, внутрішньою документацією компанії або іншою інформацією, яка не повинна бути у відкритому доступі, їх обов'язково потрібно закривати від індексації.

Використання атрибута rel="canonical"

Атрибут rel="canonical" - це спеціальний атрибут HTML-посилання, який вказує пошуковим системам на основну (канонічну) версію сторінки. Його використовують, коли на сайті є кілька сторінок зі схожим контентом, щоб уникнути проблем із дублюванням.

Ось як працює rel="canonical" для закриття сторінок від індексації:

На основній сторінці, яка має бути проіндексована, не потрібно нічого додавати.
На всіх другорядних сторінках зі схожим контентом потрібно розмістити посилання на основну сторінку з атрибутом rel="canonical". Наприклад: <link rel="canonical" href="https://site.com/main-page" />
Пошукові роботи, виявивши таке посилання, зрозуміють, що ця сторінка - не основна, і або не індексуватимуть її, або виключать із видачі на користь канонічної.

Переваги використання rel="canonical"

Допомагає уникнути дублювання контенту і пов'язаних з ним проблем (склеювання сторінок, зниження у видачі).
Консолідує кількість посилань та інші сигнали ранжування (лайки, коментарі) на основній сторінці.
Простий у реалізації - достатньо додати один рядок коду на потрібні сторінки.
Не забороняє індексацію сторінки повністю, а лише вказує на основну версію. Якщо з якихось причин основна сторінка буде недоступна, пошуковик може проіндексувати і показати альтернативну.

Недоліки використання rel="canonical"

Пошукові роботи сприймають rel="canonical" як сигнал, а не директиву. Тобто вони можуть проіндексувати вторинні сторінки, незважаючи на наявність цього атрибута, якщо вважатимуть це за необхідне.
Якщо сторінки мають суттєві відмінності в контенті, використання rel="canonical" може призвести до втрати трафіку. Пошуковики вважатимуть ці сторінки однаковими і показуватимуть тільки основну, навіть якщо запит користувача більше відповідає одній із вторинних сторінок.
Помилки в зазначенні адреси канонічної сторінки (наприклад, якщо вказати неіснуючий URL) можуть призвести до виключення сторінки з індексу або інших проблем.

Тому rel="canonical" варто використовувати в тих випадках, коли сторінки дійсно дублюють одна одну, наприклад, на сайтах із сесійними ідентифікаторами в URL або для об'єднання сторінок з WWW і без WWW. Але для закриття унікальних сторінок краще використовувати інші методи.

Закриття сторінок через файл robots.txt

Файл robots.txt - це спеціальний текстовий файл у кореневій директорії сайту, який містить інструкції для пошукових роботів. З його допомогою можна закривати від індексації окремі сторінки або цілі розділи сайту.

Ось як це працює:

У файлі robots.txt за допомогою спеціальних директив вказуються URL сторінок або папок, які потрібно виключити з індексації.
Пошукові роботи, перш ніж почати сканування сайту, звертаються до файлу robots.txt і читають ці інструкції.
Якщо робот знаходить у файлі директиву, що забороняє доступ до певної сторінки або розділу, він не скануватиме й не індексуватиме їх.

Синтаксис і приклади використання robots.txt

Ось базовий синтаксис файлу robots.txt: User-agent: [ім'я робота або *] Disallow: [URL сторінки або папки].

Директива User-agent вказує, до якого робота застосовуються наступні інструкції. Значення * означає всі роботи.

Директива Disallow вказує, які URL заборонені для сканування. наприклад: User-agent: * Disallow: /private/ Disallow: /temp-page.html

Ці інструкції забороняють усім роботам доступ до папки /private/ і сторінки /temp-page.html.

Можна вказувати складніші шаблони URL, наприклад, за допомогою спеціального символу *: User-agent: * Disallow: /*?*sort=

Це заборонить індексацію всіх сторінок, в URL яких є параметр sort=, наприклад /category/shoes?sort=price.

Переваги закриття через robots.txt

Простота реалізації - достатньо створити текстовий файл і додати кілька рядків.
Працює для всіх основних пошукових систем.
Дозволяє закривати від індексації цілі розділи сайту (папки) однією директивою.
Не потребує змін у коді сторінок.

Недоліки закриття через robots.txt

Файл robots.txt є публічним, тож усі можуть побачити, які сторінки ви намагаєтеся приховати. Для конфіденційної інформації це не підходить.
Деякі недобросовісні роботи можуть ігнорувати інструкції файлу і все одно сканувати заборонені сторінки.
Якщо сторінка вже була проіндексована до додавання її в robots.txt, вона не зникне з індексу миттєво. Пошукові системи поступово оновлюють свої бази, видаляючи сторінки, до яких більше немає доступу.
Якщо посилання на закриті сторінки є на інших сайтах або в соціальних мережах, вони все одно можуть передавати вагу цим сторінкам, навіть якщо ті не індексуються.

Тому robots.txt найкраще підходить для технічних сторінок (наприклад, сторінок фільтрів або сортування в інтернет-магазинах), які не несуть самостійної цінності для користувачів. А для важливого контенту краще використовувати інші методи закриття.

Мета-тег robots з параметрами noindex і nofollow

Мета-тег <meta name="robots" content="..."> поміщається в розділ <head> HTML-сторінки і містить інструкції для пошукових роботів. З його допомогою можна закрити окрему сторінку від індексації та заборонити перехід за посиланнями з неї.

Найбільш важливі для закриття сторінок значення атрибута content:

noindex - забороняє індексування поточної сторінки. Робот може crawl цю сторінку, але не додасть її в індекс.
nofollow - забороняє переходити за посиланнями з поточної сторінки. Сторінка може бути проіндексована, але вага через посилання з неї передаватися не буде.

Ці значення можна комбінувати:

<meta name="robots" content="noindex, nofollow"> - заборонить і індексацію сторінки, і перехід за її посиланнями.
<meta name="robots" content="noindex, follow"> - заборонить індексацію, але дозволить переходити за посиланнями. Корисно, коли сторінка сама по собі не важлива, але містить посилання на цінний контент.

Є й інші можливі значення (наприклад, noarchive, nosnippet), але вони не стосуються безпосередньо закриття від індексації.

Замість загального тега robots можна використовувати більш специфічні теги для окремих пошукових систем:

<meta name="googlebot" content="..."> - інструкції тільки для Google.

Це дає змогу тонко налаштувати видимість сторінки для різних пошукових систем.

Переваги закриття сторінок за допомогою мета-тегів

Дає більш тонкий контроль, ніж robots.txt - можна закривати окремі сторінки, а не тільки розділи.
Дає змогу керувати не тільки індексацією, а й проходженням посилальної ваги (через nofollow).
Інструкції в мета-тегах не є публічними, на відміну від robots.txt.
Можна давати різні інструкції різним пошуковикам через специфічні мета-теги.

Недоліки використання мета-тегів

Потрібно додавати теги на кожну сторінку окремо, що може бути трудомістким для великих сайтів. Це можна частково автоматизувати на рівні CMS або шаблонів сторінок.
Як і у випадку з файлом robots.txt, якщо сторінка вже була проіндексована до додавання мета-тегів, вона залишиться в індексі до наступного crawl пошуковим роботом.
Теги noindex і nofollow сприймаються пошуковими системами як сигнали, а не безумовні директиви. У рідкісних випадках сторінка може бути проіндексована, навіть якщо на ній стоїть noindex.

Загалом мета-теги - потужний і гнучкий інструмент для управління індексацією, але ним потрібно користуватися акуратно. Випадково поставивши noindex на важливу сторінку, можна втратити велику кількість трафіку.