файл robots.txtВ статье «Как закрыть от индексации лишние страницы и ссылки» я уже писала о необходимости создать служебный файл robots.txt на вашем сайте. Создать-то мы его создали, в корень сайта загрузили, но что все эти директивы означают, и как с его помощью управлять индексацией сайта, я не рассказала. Судя по тому, что мне часто задают вопросы про robots.txt, это большое упущение с моей стороны.

Идеального файла robots.txt не бывает, в каждом отдельном случае он может выглядеть по-разному. Разработчики WordPress рекомендуют свой вариант robots.txt и в общем-то, он оптимален, но у вас могут возникнуть ситуации, когда в этот файл нужно что-нибудь добавить, исходя из особенностей вашего сайта.

Так что давайте я вам все подробно расскажу. Это скучновато, но пригодится :-)

Файл robots.txt указывает роботам поисковых систем, какие страницы вашего сайта не нужно индексировать. По сути, индексировать требуется только контент, а все остальные (служебные) страницы, которым нечего делать в выдаче, надо запретить к индексации. Кроме того, как я уже говорила, у вас на сайте может быть множество дублированных страниц — одна и та же статья может находиться и в архиве рубрик, и в архиве тегов, и по тегу «more» — все это с точки зрения поисковых систем дублированный контент, что не гуд. Все это нужно запретить к индексации.

Файл robots.txt — это по сути обычный текстовый файл, который можно создать и редактировать в обычном текстовом редакторе. Приходя на ваш сайт, поисковый робот в первую очередь заглядывает в корневую папку и ищет там этот файл. Если не находит, то начинает индексировать все подряд.

Возьмем для примера распространенный вариант robots.txt:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yourdomain.ru

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Sitemap: http://yourdomain.ru/sitemap.xml

Что мы здесь наблюдаем? Во-первых, то, что Яндекс  выпендрился и требует для себя специальных указаний (первая часть адресована персонально Яндексу). Директива User-agent показывает, для какой поисковой системы предназначены указания. В первой части это Yandex, во второй  — *, что означает «для всех поисковых систем» (Яндекса это не касается).

Disallow — это запрещающие директивы, Allow — разрешающие. Хотя бы одна Disallow для каждого User-agent должна быть прописана (даже пустая), иначе роботы будут сбиты с толку.

Теперь смотрим указания для Яндекса: директива Host указывает ему, какое зеркало вашего сайта считать главным (бывает такое, что сайт доступен по разным адресам, после переезда, например). Даже если зеркал у вас нет, здесь стоит указать один из вариантов — с www. или без www. Вообще www — это архаизм, но бывает такое, что поисковик считает эти два адреса разными сайтами. Поэтому смотрим, в каком виде сайт находится в индексе, и вписываем сюда (заметьте, без http:// и без / в конце)

В самом конце файла мы видим директиву Sitemap. Она указывает путь к карте вашего сайта (той, что в формате xml — для роботов). Она находится также в корне сайта и показывает роботам, что на вашем сайте является контентом, т.е. что нужно индексировать. Если у вас помимо sitemap.xml в корне сайта имеется также sitemap.xml.gz (архивный формат), укажите оба файла.

Теперь подробнее о синтаксисе файла robots.txt:

Каждая строка выглядит так: Директива: значение  (До и после значения — пробелы). Пробелы между строками могут быть только там, где указано в моем примере, между User-agent и Disallow пустых строк быть не должно!

Такой robots.txt как ниже, разрешает индексировать весь сайт всем роботам (запрещающая директива Disallow здесь пуста):

User-agent: *
Disallow:

А вот такой, наоборот, запрещает всем и всё:

User-agent: *
Disallow: /

Такой конструкцией мы разрешим индексацию сайта Яндексу и запретим всем остальным:

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Вот такой запретит всем роботам индексировать папку ab:

User-agent: *
Disallow: /ab/

А вот такой, помимо папки ab, запретит также индексацию всех папок и файлов, начинающихся с ab (папок ab1, ab2, abc, файлов ab.htm, abc.htm и т.п.):

User-agent: *
Disallow: /ab

Если вам нужно запретить индексацию всех файлов с расширением .aspx, то выглядеть это будет так:

User-agent: *
Disallow: *.aspx

(звездочка как замена любых символов)

Запрет индексации каждой папки нужно писать в новой строке, т.е не так:

User-agent: *
Disallow: /cgi-bin/ /wp-admin/ /wp-includes/

А вот так:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/

В качестве домашнего задания изучите файл robots.txt ,  который я предложила выше, и попробуйте объяснить, что означает каждая строчка. Если вы поймете принцип, то сможете легко сами редактировать свой robots.txt, управляя поведением поисковых роботов на сайте , как вам нужно.

Подсмотреть, какие robots.txt бывают, вы можете набрав после адреса любого сайта /robots.txt

_____________

Автомобиль — давно уже не роскошь, а эффективный помощник для любого современного человека. Индивидуальные уроки вождения киев по доступной цене — опытные инструкторы-профессионалы обучат вас мастерству вождения автомобиля, научат справляться со сложными ситуациями на дорогах.