Файл robots.txt для поискового робота — Часть первая

Здравствуйте, читатели блога Сайт с нуля.

Очень часто, читая различные материалы по созданию сайтов,  вы можете натолкнуться на информацию об robots.txt  или роботс.тхт и о том, что его крайне необходимо создавать каждому.  В двух статьях мы расскажем вам, для чего нужен этот файл, как его создать, приведем пример правильного robots.txt и предоставим конкретную инструкцию по его созданию для поисковых роботов.

Для чего нужен файл robots.txt ?

Во время индексации сайта и его страниц поисковой системой, вернее её роботом (компьютерной программой), происходит процесс составления короткого (относительно) описания сайта для сохранения в базу данных этой системы.

Но робот видит не только обычные страницы, доступные посетителям, но и «служебные», различные технические страницы, при заходе на которые у постороннего выскочит «ошибка 404», в лучшем случае.

Или же, другая ситуация, у вас есть определенная часть сайта, над которой вы ещё работаете и не готовы, чтобы поисковая система её индексировала (ссылки не расставлены внутренние, текст не полностью вычитан и т.п.).

Для всего этого поисковые системы приняли решение использовать стандарт исключений для роботов — специальный файл, который будет указывать поисковым роботам, что индексировать нужно, а чего не нужно индексировать.

Правильное название, которое распознают абсолютное большинство поисковых систем – robots.txt. Тоесть, его название – robots, а расширение – txt (формат). При этом, нужно писать буквально «robots.txt», без каких-либо изменений, с большой буквы и прочего, иначе поисковые роботы будут игнорировать этот документ. Файл роботс.тхт можно написать очень просто – буквально открыть блокнот  Notepad++ и написать там несколько строк.

После его создания, необходимо загрузить файл на сервер в корневой каталог сайта. Его адресация должна иметь вид: название_сайта/robots.txt.

Содержимое файла или правильно составляем robots.txt

С помощью правильно составленного файла роботс.тхт можно не только запретить индексировать некоторые элементы вашего сайта, но и указать, какие конкретные страницы, из запрещенных к индексации, поисковому роботу все же можно смотреть; можно указать путь к Sitemap (карте сайта), для упрощения и ускорения работы; указать на главный домен для вашего сайта (для Яндекс).

Для всего этого, в robots.txt используют специальные директивы (операторы).

Первый, который необходимо указать, это User-Agent. Он сразу же определяет, для какого робота будут написаны ниже правила. Названия поисковых роботов очень разнообразны и каждая поисковая система имеет несколько их видов. Основной для Яндекса это YandexBot, для Гугла – Googlebot. Очень большой список всевозможных поисковых роботов представлен в базе данных роботов Интернета.

На практике, обычно указывают правила для нескольких отдельных поисковых роботов, а потом внизу пишут их для всех. Например:

User-Agent: Yandex – будут учитывать все роботы Яндекс

User-Agent: YandexBot – будет учитывать только основной индексирующий робот Яндекс

User-Agent: Googlebot – будет учитывать основной индексирующий робот Гугл

User-Agent: * — будут учитывать все роботы.

При этом, если есть указания для конкретной программы, то она не будет учитывать правила написанные для всех.

После того, как определились, кому мы пишем, необходимо обозначить сами правила (указания, запреты).

Директивы robotx.txt:

  • Disallow – указываем запрет на индексацию какой-либо области сайта, конкретной страницы. Например, для сайта, созданного на ВордПресс, желательно прописать: Disallow: /wp-admin/ , чтобы поисковый робот не пытался просмотреть файлы админки (консоли)  — при этом, как вы видите, само название сайта писать не нужно, а между директивой и адресом необходим пробел. Для новой команды нужно перейти на новую строку.
  • Allow – указывает разрешение на индексацию, можно использовать перед Disallow, чтобы указать на исключения из этого правила. К примеру, вы запрещаете индексировать целый каталог, но можете разрешить индексировать определенный подкаталог или страницу.
  • Host – указывает главный домен вашего сайта, главное зеркало. Используется только для Яндекса. Для нашего сайта выглядит: Host: sitesnulya.ru.
  • Sitemap – определяет путь к карте сайта в формате xml для роботов. О ней подробнее тут. Пример: Sitemap: http://sitesnulya.ru/sitemap.xml
  • Crawl-delay – задается интервал, с которым роботу нужно загружать страницы сайта. Цель – уменьшить нагрузку на сервер хостинга.
  • Clean-param – при наличии динамических параметров, которые не влияют на содержимое страницы, чтобы робот не перегружал многократно одну и ту же информацию.

Для большей конкретики, предлагаем небольшую инструкцию по установке файла роботс.тхт.

Инструкция по созданию файла robots.txt:

  1. Открываем новый документ в Notepad++ или обычном блокноте.
  2. Изучаем структуру своего сайта самостоятельно или с помощью специальных программ по анализу, выделяем элементы, которые не хотим, чтобы видели поисковые роботы и индексировали.
  3. Вписываем в открытый документ блокнота все элементы, которые не хотим показывать, как отдельные страницы, так и категории, в столбик.
  4. Проставляем перед каждой ссылкой из пункта три запрещающую директиву (оператор) «Disallow:».
  5. Копируем получившиеся строки из пункта 4 для каждого робота, которого мы решили прописать запреты отдельно, указывая каждый раз «User-Agent:».
  6. Для запрета индексировать ссылки всем роботом, копируем еще раз строки из 4 пункта и ставим их в самом низу, указываем User-Agent: *.
  7. Указываем директиву Хост для поисковика Яндекс – Host:, чтобы указать главное зеркало вашего сайта.
  8. Указываем путь к Sitemap – карте сайта для поисковых роботов в формате xml, с помощью директивы «Sitemap:»
  9. Сохраняем документ с названием «robots», формат txt. Должно выйти robots.txt.
  10. Загружаете файл на хостинг в корневую систему вашего сайта (туда же, где находится файл index.php)
  11. Проверяем правильное размещение роботс.тхт – пишем в адресную строку ваш_сайт/robots.txt, должно появится содержимое файла.
  12. Совершаем проверку robots.txt с помощью инструментов поисковых систем. Если ошибок нет, добавляем их к данным о вашем сайте.

На этом, мы завершаем статью о файле роботс.тхт. Во второй части, мы приведем пример файла robots.txt  для ВордПресс, расскажем вам, как проверить  robots.txt  на ошибки, добавить robots.txt в поисковую систему Гугл и Яндекс, а так же как их обновлять. Следите за новыми записями в разделе Как создать сайт или с помощью Карты сайта.

Спасибо за внимание. Будем очень благодарны, если воспользуетесь кнопочками социальных сетей.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

  bigmir)net TOP 100  - .  E-mail: sitesnulyaru@gmail.com