Robots.txt - как правильно составить с примерами
Proposition  »  SEO блог  »  Robots.txt

Robots.txt

Robots.txt – файл, содержимое которого показывает поисковым роботам какие страницы сайта можно сканировать, а какие нет. От того как составлен robots.txt зависит индексация всего сайта и отдельных его разделов в частности.

В этой статье мы разберем как правильно составлять файл robots.txt и рассмотрим примеры составления некоторых случаев.

 

Как правильно составить robots.txt

Общие правила как создать robots.txt:

1. Формат файла – создается обычный текстовый файл .txt, с кодировкой UTF-8.

2. Расположение файла – файл robots.txt необходимо размещать в корне сайта/поддомена, во вложенных папках файл robots не будет считываться поисковыми роботами.

В случае размещения на поддомене все записи в файле robots.txt будут действительны только для сканирования поддомена.

расположение файла robots.txt на ftp

3. Формат записей – каждая запись состоит из поля, двоеточия и значения. Разделитель записей – новая строка.

4. Запись файла начинается с указания User-agent, в котором указывается, для какого поискового робота действительна эта группа. Для отдельного поискового робота действительна только одна группа записей.

Полный список поисковых роботов Google можно взять тут: https://support.google.com/webmasters/answer/1061943?hl=ru

Некоторые сайты лучше закрывать от лишних роботов:

закрытие индексации для разных user-agent

 

Содержимое файла robots.txt индексируется и можно в поиске найти много разных списков поисковых роботов разных поисковых систем.

5. В файле robots.txt можно оставлять комментарии. Для этого строка записи должна начинаться с диеза # и все что будет после него не будет учитываться при сканировании роботами до конца записи.

комментарии в файле robots.txt

 

Allow / Disallow в Robots.txt

Основная оптимизация файла robots.txt заключается в указании поисковым роботам разрешения/запрета на индексирование сайта или отдельных категорий/страниц. Для этого применяется директивы:

  • Disallow – для закрытия от индексации;
  • Allow  – для указания доступных путей для индексации.

Важные правила по использованию Disallow в robots.txt

  • Если для dissalow не указан путь, то запись игнорируется;
  • Учитывается регистр в пути записи – /cat и /Cat это разные пути;
  • Приоритет при обработке allow и disallow будет отдан более строгому и короткому правилу. Здесь для пояснения приведем таблицу взятую из справки Google:
URLallow:disallow:ВердиктКомментарии
http://example.com/page/p/allow
http://example.com/folder/page/folder//folderallow
http://example.com/page.htm/page/*.htmundefined
http://example.com//$/allow
http://example.com/page.htm/$/disallow

 

Примеры как использовать Disallow

Как открыть/закрыть к индексации весь сайт?

Открыть индексацию всех страниц сайта для всех поисковых роботов:

User-Agent: *
Host: domain.com

Открыть индексацию сайта только для поискового робота Google:

User-Agent: Googlebot
Allow: /
User-agent: *
Disallow: /

Host: domain.com

Закрыть индексацию сайта для всех поисковых роботов:

User-agent: *
Disallow: /

Закрыть индексацию сайта только для поискового робота Google:

User-agent: Googlebot
Disallow: /

User-agent: *
Allow: /

Host: domain.com

 

Как закрыть от индексации категорию

1. Закрыть от индексации категорию и все её содержимое для всех поисковиков

User-agent: *
Disallow: /cat/

или

User-agent: *
Disallow: /cat/*

Регистр учитывается!

 

2. Закрыть от индексации все страницы категории, кроме определенной подкатегории и все что в нее вложено:

User-agent: *
Allow: /cat/page1
Disallow: /cat/

 

Как закрыть от индексации отдельную страницу

1. Закрыть от индексации страницу /page.html для всех поисковых роботов

User-agent: *
Disallow: /page.html

2. Закрыть от индексации все страницы сайта, кроме определенной page.html

User-agent: *
Allow: /page.html
Disallow: /

3. Закрыть от индексации все страницы передачи параметров

User-agent: *
Disallow: /*?*

4. Закрыть от индексации страницы фильтра, которые отрабатывают по вложенности /filter/

User-agent: *
Disallow: */*/filter/*/

5. Закрыть от индексации страницы расширения .php

User-agent: *
Disallow: /*.php$

 

Как закрыть от индексации поддомен

Для этого в корень поддомена необходимо поместить свой robots.txt с содержимым:

User-agent: *
Disallow: /

 

Как закрыть от индексации .doc, .pdf

User-agent: *
Disallow: /*.doc$
Disallow: /*.pdf$

 

Как закрыть от индексации картинки в Google

1. Закрыть от индексации все картинки:

User-agent: Googlebot-Image
Disallow: /

2. Закрыть от индексации картинки определенного формата:

User-agent: Googlebot-Image
Disallow: /*.gif$

 

Как добавить карту сайта в robots.txt

Карта сайта указывается отдельно, где прописывается абсолютный путь к карте сайта (или файлу индекса) на сервере

Sitemap: https://proposition.com.ua/sitemap_index.xml

 

Как проверить robots

В панели вебмастера Google в разделе “Сканирование” – “Инструмент проверки файла robots.txt” не должно быть ошибок в текущей версии файла robots.txt

проверка файла robots.txt

 

После изменений, необходимо отправить файл на проверку еще раз.

Для этого нажимаем “Отправить” и следуем шагам:

проверка обновленного файла robots.txt

 

Также, можно предварительно проверить отдельный URL на доступность любого из бота Google:

проверка доступности URL в robots.txt

проверка доступности URL в robots.txt

 

Ошибок в вашем файле быть не должно и все необходимые для индексации URL должны быть доступны.

 

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *