Как запретить индексацию сайта с помощью robots.txt?

Индексация сайта важна для его отображения в результатах поиска, но не всегда страницы нуждаются в ней. Чтобы запретить индексацию сайта используют robots txt. В этой статье я расскажу о его роли и практиках применения. Дам советы, как закрыть от индексации через файл robots сайт или отдельные страницы. Также вы узнаете, как проверить, что ваш файл работает корректно.

Содержание

Что такое robots.txt
Зачем нужен robots.txt
Как правильно создать файл robots.txt
Требования к оформлению
Как запретить индексацию
Закрытие от индексации всего сайта
Запрет индексирования разделов
Закрытие сканирования файлов
Как проверить, что файл работает
Подведем итоги

Что такое robots.txt

Чтобы заинтересованные посетители попали на ваш сайт, он должен появиться в результатах выдачи. Поисковые роботы сканируют интернет-пространство, анализируют страницы ресурсов. Затем они завершают индексирование вашей площадки, добавляя информацию в базы своих систем.

Иногда индексирование сайта или его страниц нежелательно. В таких случаях рекомендовано применение robots.txt. Это служебный файл текстового формата, который управляет доступом роботов поисковых систем к страницам вашего ресурса. Перед началом сканирования страницы боты анализируют содержащиеся там правила.

Зачем нужен robots.txt

Его основная задача – сообщить роботам поисковиков о том, какие страницы нужно индексировать, а какие нет. С помощью файла robots.txt можно ограничивать доступ к информации полностью или частично. Такой запрет чаще всего необходим, когда ресурс еще на стадии запуска, либо проходит обновление. Еще он может быть нужен для скрытия:

административных и технических сведений;
информации о пользователях;
страниц на доработке;
дублей;
документов с низкой важностью (если страниц очень много);
файлов для скачивания.

Кроме защиты от попадания в базы поисковиков, robots.txt влияет на ранжирование, определение релевантности площадки запросам, снижает нагрузку на ресурс.

Как правильно создать файл robots.txt

Создание robots.txt не представляет сложности. Его можно выполнить в любом текстовом редакторе. Наполнение включает последовательный набор команд (директив). Каждая группа команд задает конкретное правило закрытия сайта от индексации. Один файл может иметь одну или несколько таких групп. Основные команды:

Директива	Назначение	Значения
User-agent:	Указывает на то, роботам какого поисковика (агента) нужно следовать правилу. Всегда стоит в начале структуры каждой группы.	«*» – всем поисковым системам; «Yandex» – ботам Яндекс; «Googlebot» – только для Гугл
Disallow:	Указывает на объект, который нельзя сканировать.	«/» – сайт целиком; «/example/» – конкретный раздел; «/example» – отдельную страницу
Allow:	Дает разрешение на сканирование конкретных областей, пока остальные закрыты «Disallow». Команда не всегда встречается в тексте.

Требования к оформлению

Поисковые системы устанавливают критерии, которым должно соответствовать оформление файла. Эти требования незначительно различаются у каждого из агентов. Основные характеристики правильного файла robots:

вес менее 500 КБ;
название – «robots», формат – «.txt»;
расположение в корневом каталоге на сервере;
наличие необходимых команд и их количества;
отсутствие кириллицы;
не менее одного набора правил;
распределение каждой команды на отдельную строку;
учет регистра.

Как запретить индексацию

Если вы устанавливаете запрет на индексацию сайта поисковыми системами, необходимо добавить директиву «Disallow». Она укажет, на какие страницы сайта, разделы или файлы распространяется действие.

Закрытие от индексации всего сайта

Если ваш ресурс готовится к запуску, ведется его обновление или технические действия, лучше запретить исследование поисковыми роботами. Чтобы запретить индексирование всего сайта Google и Яндексом, добавьте следующий код:

User-agent: *

Disallow: /

Запрет индексирования разделов

Если вам необходимо разрешить индексацию всего сайта, кроме отдельных разделов, набор директив будет отличаться. Используйте «Disallow» для этих разделов и «Allow» для страниц, которые нужно сканировать.

Пример: вы планируете разрешить индексирование всего сайта, кроме каталога /cart/ и страницы /thankyou.html/. Пропишите следующий код:

User-agent: *
Disallow: /cart/
Disallow: /thankyou.html/
Allow: /

Закрытие сканирования файлов

Вы можете запретить поисковым роботам индексирование фото, гиф, таблиц, видео и других файлов. Пример кода, чтобы запретить индексацию файла сайта через robots txt:

User-agent: *
Disallow: /example.xls

Также вы можете запрещать индексацию отдельных ссылок, подробнее об этом в статье «Отличие noindex и nofollow?».

Как проверить, что файл работает

Порядок действий, которые дадут понять, корректно ли работает robots.txt:

Закрываем сайт или страницы от индексации через файл robots.txt.
Добавляем сформированный файл на сервер.
Переходим на сайт, для которого создан файл.
Дополняем URL ресурса «/robots.txt» (пример: https://www.example.com/robots.txt). Если файл добавлен, вы увидите его содержимое. Если он не найден или неправильно составлен, отразится ошибка 404.

Вы можете применять и другие способы. Проверяйте индексирование поисковыми системами страниц сайта с помощью Вебмастер от Яндекс, Google Search Console или специальных онлайн-сервисов.

Подведем итоги

Роботы поисковых систем играют важную роль в том, как сайты отображаются в результатах выдачи. Но не все сайты нуждаются в том, чтобы их страницы были проиндексированы. Например, этого не требуется, если сайт пока не готов для публикации или страница содержит служебную информацию. Для запрета сканирования создан файл robots.txt. Он регулирует доступ роботов к ресурсу и его элементам. Правила сканирования легко сформировать в обычном текстовом файле. Задавайте с помощью директив условия индексации в robots.txt. Если вы правильно заблокируете доступ к сайту, отдельным страницам или каталогам, они не должны появиться в результатах поиска.

Предлагаю вам скачать правильный robots.txt для сайта на wordpress и использовать его как основу для работы с вашим сайтом.

Скачать

Также рекомендую к прочтению статью «Что такое 301 редирект и когда он необходим?».