Хотите, что бы ваш сайт индексировался поисковыми роботами? Тогда начните с самого малого, настройте файл robots.txt для Яндекса. Как говорят знаменитые SEO-гуру в SEO мелочей нет. Вот тут я с ними полностью согласен, порой самая банальная мелочь может оказаться огромной не приятностью.

В более чем 70% анализируемых мною сайтов, данный файл был составлен не должным образом. Ошибки вели к тому что, например, казалось бы, релевантная определенному запросу страница, оказывалась ниже в выдаче, чем страница с тегами. Банальная ошибка, в роботсе не закрыты к индексации страницы тегов. Мелочь, а какая неприятность? Чтобы не возникало подобных недоразумений, давайте попробуем разобраться, как правильно составить roots.txt для поисковой системы Яндекс.

[su_heading size=»17″]

Правильный robots.txt для
Яндекса

[/su_heading] [su_pullquote]Robots.txt — обычный текстовый файл, который расположен в корневой дериктории сайта. Основное предназначение — указать роботам поисковых систем основные параметры индексирования сайта. [/su_pullquote]

Одним из первых файлов, к которому обращаются поисковые роботы — robots.txt, «считывая» информацию, прописанную в файле, поисковый робот действует согласно прописанной «инструкции». Какая информация должна быть в файле robots.txt?

Вся информация прописывается директивами, директива это команда поисковому роботу на то или иное действие. Основных директив для  robots.txt ни так уж и много.

[su_divider top=»no» style=»dashed»] [su_highlight]User-agent:[/su_highlight] — назначение этой директивы указать, какому поисковому роботу предназначена информация.

[su_highlight]Allow:[/su_highlight] — разрешение на индексацию всего сайта или какой-то его части

[su_highlight]Disallow:[/su_highlight] — запрещение индексации всего сайта или определенной его части

[su_highlight]Sitemap:[/su_highlight] — не обязательная директива, она указывает на то, что у вас на сайте есть  Sitemap, так называемая карта сайта, или по «научному» – описание структуры вашего сайта в формате .xml  или .xml.gz.

[su_highlight]Host:[/su_highlight] — тоже не обязательная директива – ей мы указываем основное зеркало сайта.

[su_divider top=»no» style=»dashed»]

А сейчас на примере опробуем составить простенький robots.txt для Яндекса:

User-agent: * — данной директивой мы разрешаем индексировать сайт всем поисковым роботам, для этого достаточно после User-agent: добавить значок *. Но мы составляем robots.txt именно для Яндекса, в этом случае наш  User-agent: должен выглядеть так:

[note] User-agent: Yandex – этой директивой мы открываем доступ всем поисковым роботам Яндекса, которых существует более десятка.[/note]

Возможно, каким то из них вы решите запретить доступ к вашему сайту. Привожу их список и краткое описание;

[su_divider top=»no» style=»dashed»]

«YandexBot» — основной индексирующий робот

«YandexMedia» — индексирует мультимедийные данные

«YandexImages» — индексирует картинки

«YandexCatalog» — так называемый «стукач» Яндекс.Каталога

«YaDirectFetcher» — индексатор Яндекс.Директа, вот этому можно смело дать запрет

«YandexBlogs» — поиск по блогам, индексирует комментарии и посты всех блогов

«YandexNews» — индексирует  Яндекс.Новости

«YandexPagechecker» — валидатор микроразметки я бы тоже не пускал его на сайт)

«‘YandexMetrika» — поисковый бот Яндекс.Метрики

«YandexMarket» — поисковый бот Яндекс.Маркета

«YandexCalendar» — поисковый бот Яндекс.Календаря что это такое я не знаю

[su_divider top=»no» style=»dashed»]

Теперь, когда мы знаем всех роботов Яндекса в «лицо», при желании можно запретить любому из них, индексировать ваш сайт. Хотя это и не обязательно, особого вреда они вашему сайту не принесут, но мало ли у кого какие цели.

Несколько практических примеров robots.txt для Яндекса:

[note] User-agent: Yandex
Disallow: /
Полный запрет на индексацию вашего сайта всем роботам Яндекса.
[/note] [note] User-agent: Yandex
Allow: /
В данном случае ваш сайт полностью открыт для индексации Яндексом.
[/note] [note] User-agent: Yandex
Allow: /
User-agent: YandexMetrika
Disallow: /
В этой ситуации, ваш сайт закрыт от индексации только роботу YandexMetrika остальным роботам Яндекса доступ к сайту открыт. Я думаю, что принцип понятен.
[/note] [note] User-agent: Yandex
Allow: /content
Disallow: /
Здесь мы закрыли для индексации весь сайт кроме директории /content
[/note] [note] User-agent: Yandex
Allow: /
Disallow: /content
А это противоположная ситуация, весь сайт открыт для индексации кроме директории /content. Как видите совсем ни чего сложного.
[/note] [note] User-agent: Yandex
Allow: /
Disallow: /content
Sitemap: адрес сайта/ sitemap.xml
Host: домен.ру
Добавили две директивы, и это уже похоже на настоящий robots.txt, или вернее сказать это основной скелет будущего файла robots.txt.
[/note]

И еще, один совет.

Особо следует уделить внимание, когда от индексации закрываются страницы категорий. Иногда в адресе страницы можно увидеть такую картину – название сайта/категория/название категории/название статьи, если адреса страницы у вас построены таким образом, а категории закрыты в robots.txt, вы долго будете искать причины, по которым ваш сайт не индексируется.
[su_heading size=»17″]

Как проверить robots.txt в Яндексе

[/su_heading]

Если вы, поняли принцип создания правильного robots.txt для Яндекса,и ваш файл готов, самое время его проверить. Проверка robots.txt Яндексом, процедура не трудная, и не займет у вас много времени. Идем в Яндекс.Вебмастер, все дальнейшие действия будут происходить именно там.

[su_tabs class=»my-custom-tabs»] [su_tab title=»1 шаг»]1
Жмем мои сайты и выбираем нужный вам сайт
[/su_tab] [su_tab title=»2 шаг»]2
В левом меню – Индексирование сайта
[/su_tab] [su_tab title=»3 шаг»]3
Анализ robots.txt
[/su_tab] [su_tab title=»4 шаг»]4
Загружаем robots.txt с сайта
[/su_tab] [su_tab title=»5 шаг»]5
После загрузки жмем – проверить
[/su_tab] [su_tab title=»6 шаг»]6
И смотрим результаты
[/su_tab] [/su_tabs]

Результаты проверки Яндексом robots.txt моего блога показали, что все директивы учитываются роботом Яндекса, в правильности данной проверки можно не сомневаться.

В заключении не большой совет: если вы слабо разбираетесь, или попросту не хотите вникать в то что я описал выше, для составления правильно файла robots.txt обратитесь к специалисту. Даже если вы нашли готовый файл, для популярных CSM существуют готовый роботсы, всеравно покажите его специалисту, не все сайты одинаковы, даже если сделаны на одинаковых движках.

В ближайшее время я расскажу вам о том, как сделать правильный robots txt для WordPress.

Navigator

View all posts

Add comment

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Архивы

Log In

Forgot password?

Forgot password?

Enter your account data and we will send you a link to reset your password.

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Here you'll find all collections you've created before.

ru_RURussian
ru_RURussian