В один из пунктов внутренней оптимизации, входит создания файла robots.txt, поэтому разберем, для чего он нужен, и как правильно его создать.
Что такое robots.txt
Файл robots.txt находится в корневой папке сайта, представляет собой текстовый файл, содержащий инструкции для роботов поисковых систем. Поисковый робот, зашедший к вам на сайт, сначала проверяет наличие файла robots.txt, и находящихся в нем запретов на индексацию разделов или страниц вашего ресурса.
Назначение robots.txt
Для чего же прятать разделы сайта от поисковых систем? - спросят многие из вас. Ситуаций здесь несколько.
1) Информация, которая не несет пользы для посетителей и поисковиков, соответственно нет смысла в ее индексации. Примерами такой информации ссылки на RSS ленты на каждой странице поста, страница логина, директории для статистических данных и служебные директории.
2) Дублированный контент, который тоже нужно скрывать от поисковых ботов, чтобы не получить штрафные санкции от поисковых машин. Примерами могут послужить разделы: рубрики, архивы, теги, постраничная навигация, особенно это касается CMS систем.
3) Указание основного зеркала сайта (с www или без) и карты сайта, является дополнительной возможностью файла robots.txt.
Создание robots.txt и его синтаксис
Для создания файла, robots.txt нам понадобится обычный текстовый редактор, лично я использую Notepad2. Открываем Notepad2, задаем ограничение на индексацию и сохраняем файл в корневую директорию сайта с названием robots.txt.
Чуть ниже я приведу основные директивы для робота и поясню, что они означают.
В файле обычно содержится от одной до нескольких записей, которые должны быть разделены одной или несколькими пустыми строками.
В файл могут быть включены комментарии, символ «#» означает начало комментария, конец строки – конец комментария.
Начинаться запись должна со строки User-Agent, далее одна или несколько строк Disallow. Строки нераспознанные поисковым роботом игнорируются.
User-Agent
Это поле принимает в качестве значения имя поискового робота, на которого распространяются права доступа установленные в этой записи.
При указании более одного имени поискового бота, правила распространяются на всех перечисленных.
Если вместо имени робота введен символ «*», тогда правила доступа, заданные в этой записи, действуют для всех поисковых роботов (кроме тех, для кого сделана отдельная запись), запросивших файл robots.txt.
Disallow
В качестве значения этого поля вводят полный или частичный адрес директории или файла, который не подлежит индексации.
Если Disallow оставить пустым, то будет индексироваться весь сайт без исключений.
Строки User-Agent и Disallow, являются обязательными для файла robots.txt
При отсутствии файла, его неправильном заполнении и если файл пуст, поисковый робот будет работать согласно своему алгоритму.
Пример 1: Запрет индексации всего сайта для всех роботов поисковых систем
User-agent: *
Disallow: /
Необходима, если сайт еще не готов к индексации (введутся технические работы).
Пример 2: Запрещает ботам Google индексировать папку http://site.ru/tmp/ и файл http://site.ru/print.html
User-agent: Googlebot
Disallow: /tmp/
Disallow: /print.html
Пример 3: Запрещает индексацию ботами Яндекса и Апорт http://site.ru/uploads/img/
User-agent: Aport
User-agent: Yandex
Disallow: /uploads/img/
Пример 4: Запрещает индексацию всем роботам, (кроме тех, для кого сделана отдельная запись) страниц, начинающихся с http://site.ru/?s=, чувствительно к порядку переменных в ссылке.
User-Agent: *
Disallow: /?s=
Пример 5: Запрещает всем роботам, (кроме тех, для кого сделана отдельная запись) индексацию директории http://site.ru/feed/ и директории http://site.ru/page со всеми вложенными в нее директориями и файлами. Также можно воспользоваться дополнительными параметрами и указать правильное зеркало вашего домена в данном случае это site.ru (без www). А также расположение карты сайта по адресу http://site.ru/sitemap.xml. Как видите, делается это с помощью директив Host: и Sitemap: соответственно.
User-Agent: *
Disallow: /page
Disallow: /feed/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml