Файл robots.txt для поискового робота — Часть вторая

Здравствуйте, читатели блога Сайт с нуля.

В первой части статьи Файл robots.txt для поискового робота мы наглядно рассмотрели как составлять правильный robots.txt, зачем он вообще нужен, а также  составили подробную пошаговую инструкцию по созданию файла роботс.тхт.

Для сравнения получившихся результатов у вас, с файлом robots.txt, который используем мы – откройте новую вкладку в вашем браузере и пропишите: sitesnulya.robots.txt. Можете воспользоваться этими данными как основой для вашего документа robots, но учитывайте, что у нас сайт создан на WordPress и для других систем, необходимо запрещать совсем другие технические папки.

 

Разберем выделенный участок файла роботс.тхт подробно:

Роботс.тхт

  • Строка «User-agent: Yandex» — указывает, что эта часть правил предназначена для всех роботов Яндекса. Чтобы отделить конкретно эти указания от других используется пустая строка.
  • Следующие строки с «Disallow: » — перечисляют различные категории, которые поисковому роботу не нужно просматривать и индексировать. Поскольку у нас сайт создан с помощью WordPress, то большая часть запрещает входить именно в его админку.
  • Строка «Sitemap: http://sitesnulya.ru/sitemap.xml» — указывает боту адрес специальной карты сайта в xml формате, чтобы ему было легче и быстрее индексировать содержимое веб ресурса.
  • Строка «Host: sitesnulya.ru» — используется только для Яндекс ботов, указывает на основную страницу нашего проекта.

Вот и все, во второй части robots.txt мы прописали такие же ограничения для всех остальных поисковых роботов других систем. Яндекс же выделили, только из-за наличия последней строки.

Теперь необходимо проверить ваш файл указаний для поисковых роботов в системах поиска, где вы зарегистрировали сайт, Гугл и Яндекс, к примеру.

После добавления сайта в эти системы и подтверждения прав собственности на него одним из доступных способов, необходимо добавить robots.txt в каждую из них.

Так, для Яндекса, это будет выражаться в следующем:

  1. укпеупВ панели вебмастера находите Настройка индексирования — Анализ robots.txt.
  2. Нажимаете Загрузить robots.txt с сайта.
  3. Если все прошло удачно и показались строки относящиеся к роботам Яндекса (как на картинке), то для проверки запретов впишите в поле Скрыть URl  один из адресов, которые боту должны быть недоступны и нажмите Проверить. Внизу появится надпись «Запрещен правилом …».
  4. Обновлять файл можно просто повторив пункт 2.

В Гугле все делается схожим образом через Search Console. Только процесс проверки и обновления файла robots.txt несколько отличается:

  1. ооывЗаходим в Сканирование — Инструмент проверки файла robots.txt
  2. Нажимаем Отправить в появившемся меню еще раз нажимаем Отправить. Через минуту обновляем страницу, пока не появится текст вашего файла роботс.тхт. У нас, как видно на примере, ошибок не выявлено, как и предупреждений.
  3. Вводим один из адресов, запрещенных файлом
  4. Нажимаем Проверить — если всё верно, то кнопка Проверить превратится  в Недоступен, а в поле файла выделится строка, которая запрещает заходить по данному адресу поисковому роботу.
  5. После любых изменений в файле robots.txt — повторяем пункты 2-4.

На этом вся работа с данным файлом окончена. Конечно, поисковые системы могут менять свое отношение к роботс.тхт, и вам придется вносить в него коррективы. Чтобы быть в курсе, следите за новыми статьями на нашем сайте.

Спасибо за внимание. Будем очень благодарны, если воспользуетесь кнопочками социальных сетей.

One thought on “Файл robots.txt для поискового робота — Часть вторая”

  1. Блогу на WordPress около 3х недель — google проиндексировал 59 страниц, остальные поисковики по одной, кто нибудь может подсказать в чем может быть проблема? Хотя судя по панели вебмастеров того же Яндекса робот регулярно на блог заходит.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

  bigmir)net TOP 100  - .  E-mail: sitesnulyaru@gmail.com