Robots.txt для WordPressЭта статья открывает рубрику с внутренней оптимизацией вашего сайта. Посвящаться она будет файлу Robots.txt и как создать правильный Robots.txt для WordPress.

Файл robots.txt просто необходим для сайта, он это один из двух инструментов, которыми мы можем влиять на индексацию нашего сайта в Google и Яндекс. Второй – это карта сайта (sitemap).

Почему же файл Robots.txt так нужен нашему сайту?

 

Robots.txt – это обычный текстовый файл в который записывают инструкции для поисковых роботов. Именно его они проверяют, сразу зайдя на сайт. С помощью этих инструкций мы разрешаем или запрещаем поисковым роботам индексировать некоторое содержимое сайта (разделы, страницы), указываем главное зеркало сайта (с www или без) и указываем адрес карты сайта.

robots.txt

Вы должны понимать, что если не прописать эти команды в robots.txt то в индексацию могут попасть страницы, которые имеют информацию не относящеюся к содержимому вашего сайта или будет дублироваться контент (один и тот же материал, который доступен с разных ссылок) а это поисковики очень не любят.

Где же размещен файл Robots.txt?

Движок WordPress не имеет встроенный файл robots.txt. Его можно создать вручную в корневой директории сайта на хостинге, просто создав текстовый файл с названием robots.txt или с помощью плагинов для wordpress, но я советую первый вариант. Что именно в него нужно писать читайте далее.

Инструкции для Robots.txt

1. User-Agent:
Этой командой мы указываем имя поискового робота, к которому будут применяются правила ниже. Если прописать User-agent: * то это будет относится ко всем роботам.

2. Allow: и Disallow:
Команда Allow: указывает какие разделы блога разрешаются для индексации, Disallow: запрещает индексацию. Allow: понимают только Google и Яндекс, другие поисковики его не видят.Первой обязательно должна прописываться команда Allow: и только после нее Disallow. Запомните еще тот факт, что в файле robots.txt между командами User-Agent: и Disallow: нельзя оставлять пустых строк, потому что это будет значить конец правил для поискового робота.

3. Host
Этот директив понимает только робот Яндекса. Ним указываем главное зеркало сайта, по котором он будет доступный, с www или без, чтобы избежать дублирования страниц.

4. Sitemap
Обязательно указываем роботу на наличие и адрес карты сайта (sitemap) в формате XML.

Правильный Robots.txt для WordPress

  1. User-agent: *
  2.  
  3. Allow: */uploads
  4. Disallow: /cgi-bin
  5. Disallow: /wp-
  6. Disallow: */feed
  7. Disallow: /xmlrpc.php
  8. Disallow: /tag
  9. Disallow: /category
  10. Disallow: /archive
  11. Disallow: */trackback
  12. Disallow: /*?*
  13.  
  14. Host: allons.ru
  15.  
  16. Sitemap: http://allons.ru/sitemap.xml

Если ваш сайт работает на движке wordpress и у вас нет еще (или сомневаетесь в правильности) файла robots.txt то можете смело скопировать выше написанные директивы, заменив в них только Host: и Sitemap: на свои.

Директивы Host: (главное зеркало сайта) и Sitemap:(путь к карте сайта) будут учитываться поисковым роботом в любом месте в robots.txt. Поэтому, не нужно дублировать секцию с директивами полностью, ради указания директивы Host для Яндекса.

Проверить и посмотреть robots.txt можно на любом сайте, прописав после адреса главной страницы /robots.txt Например на нашем сайте он находиться по ссылке http://allons.ru/robots.txt

Сервис проверки Robots.txt от Яндекс и Google.

Эти поисковые системы позволяют проверить работоспособность файла robots.txt.

Для Google

Нужно зайти на google.com/webmasters и перейти в раздел Состояние > Заблокированные URL. Если вы еще не зарегистрировали свой сайт в Google webmasters, то обязательно это сделайте!

Проверка robots.txt в google

 

Для Yandex

Заходим в webmaster.yandex.ru и переходим в раздел Настройки индексирования – Анализ Robots.txt. В поле вставьте содержимое robots.txt и нажмите проверить. Если ошибок нет то ваш robots.txt правельный. Регистрация сайта в Яндекс Вебмастер.

Проверка robots.txt в yandex

На этом пока все. Если что не понятно или нашли ошибки спрашивайте в комментариях.

А у вас правильный Robots.txt?

Тот, кто спрашивает, выглядит дураком всего пять минут.

Тот, кто этого не делает, остается дураком на всю жизнь.

 

Поделиться статьей в социальных сетях

К посту “Что такое файл Robots.txt | Правильный Robots.txt для WordPress” 1 комментарий:

  1. Движок WordPress не имеет встроенный файл robots.txt. Как же не имеет, еще как имеет, вот его стандартный оригинал :User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/. Он находится в файлах. Вопрос как его оттуда удалить, а то мной установленный robots.txt. не читается, уже проверял. Блог или сайт у вас хороший, есть что почитать.