Файл robots.txt | Блог SEO in Site

Продвижение сайтов ведение блогов заработок в интернет SEO

Файл robots.txt


robots.txtВ один из пунктов внутренней оптимизации, входит создания файла robots.txt, поэтому разберем, для чего он нужен, и как правильно его создать.

Что такое robots.txt

Файл robots.txt находится в корневой папке сайта, представляет собой текстовый файл, содержащий инструкции для роботов поисковых систем. Поисковый робот, зашедший к вам на сайт, сначала проверяет наличие файла robots.txt, и находящихся в нем запретов на индексацию разделов или страниц вашего ресурса.

Назначение robots.txt

Для чего же прятать разделы сайта от поисковых систем? -  спросят многие из вас. Ситуаций здесь несколько.

1) Информация, которая не несет пользы для посетителей и поисковиков, соответственно нет смысла в ее индексации. Примерами такой информации ссылки на RSS ленты на каждой странице поста, страница логина, директории для статистических данных и служебные директории.

2) Дублированный контент, который тоже нужно скрывать от поисковых ботов, чтобы не получить штрафные санкции от поисковых машин. Примерами могут послужить разделы: рубрики, архивы, теги, постраничная навигация, особенно это касается CMS систем.

3) Указание основного зеркала сайта (с www или без) и карты сайта, является дополнительной возможностью файла robots.txt.

Создание robots.txt и его синтаксис

Для создания файла, robots.txt нам понадобится обычный текстовый редактор, лично я использую Notepad2. Открываем Notepad2, задаем ограничение на индексацию и сохраняем файл в корневую директорию сайта с названием robots.txt.

Чуть ниже я приведу основные директивы для робота и поясню, что они означают.

В файле обычно содержится от одной до нескольких записей, которые должны быть разделены одной или несколькими пустыми строками.

В файл могут быть включены комментарии, символ «#» означает начало комментария, конец строки – конец комментария.

Начинаться запись должна со строки User-Agent, далее одна или несколько строк Disallow. Строки нераспознанные поисковым роботом игнорируются.

User-Agent

Это поле принимает в качестве значения имя поискового робота, на которого распространяются права доступа установленные в этой записи.

При указании более одного имени поискового бота, правила распространяются на всех перечисленных.

Если вместо имени робота введен символ «*», тогда правила доступа, заданные в этой записи, действуют для всех поисковых роботов (кроме тех, для кого сделана отдельная запись), запросивших файл robots.txt.

Disallow

В качестве значения этого поля вводят полный или частичный адрес директории или файла, который не подлежит индексации.

Если Disallow оставить пустым, то будет индексироваться весь сайт без исключений.

Строки User-Agent и Disallow, являются обязательными для файла robots.txt

При отсутствии файла, его неправильном заполнении и если файл пуст, поисковый робот будет работать согласно своему алгоритму.

Пример 1: Запрет индексации всего сайта для всех роботов поисковых систем

User-agent: *
Disallow: /

Необходима, если сайт еще не готов к индексации (введутся технические работы).

Пример 2: Запрещает ботам Google индексировать папку http://site.ru/tmp/ и файл http://site.ru/print.html

User-agent: Googlebot
Disallow: /tmp/
Disallow: /print.html

Пример 3: Запрещает индексацию ботами Яндекса и Апорт http://site.ru/uploads/img/

User-agent: Aport
User-agent: Yandex
Disallow: /uploads/img/

Пример 4: Запрещает индексацию всем роботам, (кроме тех, для кого сделана отдельная запись) страниц, начинающихся с http://site.ru/?s=, чувствительно к порядку переменных в ссылке.

User-Agent: *
Disallow: /?s=

Пример 5: Запрещает всем роботам, (кроме тех, для кого сделана отдельная запись) индексацию директории http://site.ru/feed/ и директории http://site.ru/page со всеми вложенными в нее директориями и файлами. Также можно воспользоваться дополнительными параметрами и указать правильное зеркало вашего домена в данном случае это site.ru (без www). А также расположение карты сайта по адресу http://site.ru/sitemap.xml. Как видите, делается это с помощью директив Host: и Sitemap: соответственно.

User-Agent: *
Disallow: /page
Disallow: /feed/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml


Оставить комментарий