robots.txt — файл с инструкциями для роботов поисковых систем и других сервисов по обходу содержимого вашего сайта. В данной статье речь пойдёт об его применении для WordPress, но описанные принципы применимы для любого движка.
Где находится robots.txt для WordPress
Сам файл лежит в корне сайта. В зависимости от используемого хостинга эта папка может иметь разное название, но чаще всего она называется public_html.
Пример местоположения файла на скрине.
Если указанного файла на вашем сайте нет, создайте его в любом текстовом редакторе (или скачайте по ссылке в этой статье) и поместите на сервере в корне вашего сайта. Поисковый робот при заходе на ваш сайт в первую очередь ищет именно этот файл, поскольку в нем находятся инструкции для его дальнейшей работы.
В общем сайт может существовать и без него, но, например, яндекс вебмастер расценивает его отсутствие как ошибку.
Некоторые seo-плагины создают виртуальный файл. В этом случае он будет открываться по адресу ваш_сайт/robots.txt, но вы не сможете найти его на хостинге. В этом случае надо искать, какой именно плагин мог его создать. Виртуальный файл — это отличный вариант. Как правило плагины предлагают уже готовый и оптимальный вариант настроек.
Как редактировать robots.txt
Это обычный текстовый файл и редактировать его можно в самом простом редакторе: блокноте и т.п. Обычно виртуальные хостинги предлагают файл-менеджеры. В этом случае вы можете открыть его прямо там и внести необходимые корректировки. На скрине показано, как можно открыть файл для редактирования на хостинге Бегет.
Пример robots.txt
На примере ниже показан простой стандартный вариант. В нем указан запрет индексации служебных папок и результатов поиска.
1 2 3 4 5 6 7 8 9 10 11 12 13 |
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /readme.html Disallow: /*? Disallow: /?s= Allow: /*.css Allow: /*.js Sitemap: https://delaemsait.info/sitemap.xml |
Вы можете скачать этот файл по ссылке и взять его за шаблон.
Обратите внимание, что нужно заменить delaemsait.info на адрес вашего ресурса в последней строке.
Настройка robots.txt
Нельзя говорить о каком-то стандартном или самом правильном robots.txt. Для каждого сайта в нем могут быть свои директивы в зависимости от установленных плагинов и т.д.
Рассмотрим основные применяемые инструкции.
User-Agent означает, что следующие после него инструкции предназначены именно для этого юзерагента. В данном случае под юзерагентом подразумевается название поискового робота. Можно создать разные разделы разных поисковых систем, то есть для Яндекс, Гугл. Универсальные инструкции находятся в блоке со «*».
Директива disallow означает, что адреса страниц, соответствующие указанной после нее маске, не подлежат обходу и индексации. Например, маска /wp-admin закрывает все файлы из служебного каталога wp-admin.
Сайт WP содержит большое количество служебных папок, индексировать которые поисковикам не нужно. Поэтому рекомендуется сделать так, чтобы поисковик не тратил на них ресурсы, а индексировал лишь необходимое.
Команда allow обладает, соответственно, противоположным смыслом и указывает, что эти адреса можно обходить. Рекомендуется открыть файлы js и css, чтобы поисковые системы могли формировать полные страницы (в вышеприведенном примере это есть).
Sitemap указывает на адрес карты сайта, обычно — sitemap.xml. В том случае, если карты сайта у вас нет, ее желательно создать. (Статья о создании карты сайта.)
Существуют сервисы и плагины — генераторы robots.txt по заданным параметрам. Их легко найти в поисковых системах.
У нас вы можете заказать разработку сайтов на Wordpress или доработку сайта Вордпресс.
Если закрыть для индексации папки /wp-content/themes и /wp-content/plugins то вы потеряете возможность индексации изображений с вашего сайта. Кроме того, например Google будет понижать ваш сайт в рейтинге, так как мобильная версия сайта будет отображаться неправильно (из-за запрета на индексацию CSS файлов)
Андрей, изображения в wordpress хранятся в папке /wp-content/uploads/. Она открыта для индексирования.
По поводу css — проверил этот сайт на планшете в вертикальном режиме — нормально отображается, значит стили подгружаются.
А я думаю, что две нижние директивы для картинок лишние. Папка с картинками не закрыта. И еще можно объединить директивы Для Всех и для Яши в одну, они одинаковые. Я проэкспериментировал с «нововведением» Гугла — это кошмар. Роботы Гугла умные — ходят аккуратно, но вот вместе с ними налетела еще «стая голодных волков». Нагрузка на сервер увеличилась в двое! Долбят картинки, CSS. Не жалко картинок, но вот почему-то от этих «волков» идут запросы от 20 до 30 в секунду, на файл с логами страшно смотреть! Теперь сижу и думаю, а может к старой форме robots.txt вернуться?…
Да, в данный момент последние 2 директивы избыточные, но файл robots периодически меняется, поэтому они на всякий случай присутствуют.
Если нагрузку на сайт создают роботы, которые вам не нужны, попробуйте закрыть их в файле htaccess. Можно закрыть через юзерагент.
Подскажите нужно ли блокировать wp-comments или */comments и какая вообще между ними разница? А то у одних так, у других так
Конкретные настройки зависят от конфигурации сайта, установленных плагинов и т.д. Здесь только общие рекомендации, которые, однако, для большинства подходят. Если на вашем сайте формируются отдельные адреса для каждого комментария, то лучше их закрыть.