Приветствую Всех завсегдатаев и гостей ресурса «Блог свободного человека«. Сегодня хотелось бы поговорить о том, что такое файл robots.txt, как его правильно составлять и зачем он вообще нужен.

Что такое файл robots.txt

robots.txt — это текстовый файл, который содержит специальные инструкции для поисковых роботов/ботов. В 100% случаев он находиться в корневой директории Вашего сайта.

Проще говоря, инструкции — это то, что можно индексировать поисковому роботу и чего нельзя. Файл robots.txt предоставляет возможность запретить от индексации поисковыми роботами конкретные разделы сайта, отдельные страницы или сайт целиком. Так же в файле можно указать основное «зеркало» сайта и даже рекомендовать боту соблюдать определенный временной интервал между скачиванием документов с сервера. Так же в содержимом файла robots помещается ссылка на карту сайта sitemap.xml.

Как создать robots.txt

Создать robots.txt предельно просто. Открываете текстовый редактор (например, блокнот). После создаете документ и сохраняете его с именем и расширением robots.txt.

Структура robots.txt

Основными инструкциями файла являются Disallow и Allow, что означает «запретить» и «разрешить». А кому нужно запретить или разрешить — для этого используется Useragent.

Приведем пример использования. Например, нам нужно запретить индексацию для Яндекса страницы администратора CMS WordPress. В созданном нами файле пишем следующее:

User-agent: Yandex
Disallow: /wp-admin

Благодаря данным строкам робот Яндекса, анализируя файл, не будет индексировать страницу входа в панель Администратора. Ежели нужно запретить данную страничку всем поисковым роботам, то вместо Yandex используется *. Например:

User-agent: *
Disallow: /wp-admin

Точно так же можно сделать для конкретного поискового робота (например, Google).

Какие страницы нужно закрывать от индексации в robots.txt

В файле закрываются от индексации страницы, которые не несут ценности для посетителей сайта, содержат служебную информацию и то, чего Вы бы не хотели видеть в индексе ПС. Так же в нем скрываются страницы-дубли (бывает когда из-за ошибок создаются страницы-дубликаты).

Пример создания robots.txt для WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: */login
Disallow: */login.html
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Естественно, вместо site.ru нужно написать Ваш домен.

Как Вы видите, в данном примере скрыты те страницы, которые не несут никакой моральной ценности для посетителя.

А в следующем материале Вы узнаете как закрыть сайт от индексации полностью.

На этом как-бы все. Будут вопросы — милости прошу задавать их в комментариях.

С данной инструкцией создать правильный robots.txt проще простого!