Выбрать город
8 (800) 333-13-49

График работы:

  • ПН-ПТ: 11:00 — 19:00 по Мск
  • #seo

Как правильно создать файл Robots.txt

Как правильно создать файл Robots.txt
Оглавление
  • 01.Особенности и необходимость
  • 02.Правильное создание
  • 03.Создание онлайн
  • 04.Как редактировать
  • 05.Правила настроек
  • 06.Синтаксис для самостоятельного создания robots txt без ошибок
  • 07.Проверка
  • 08.В Гугле и Яндексе
  • 9.Что означает Disallow в robots.txt
  • 10.Директива Allow
  • 11.Особенности главного зеркала сайтов с Host
  • 12.Директива Sitemap
  • 13.Clean-param: специфика
  • 14.Что дает Crawl-delay
  • 15.Robots txt и комментарии
  • 16.Итог

“robots.txt” – это файл, который отвечает за индексацию сайта поисковыми ботами. Одна ошибка в его заполнении и вся работа по SEO-оптимизации будет испорчена. Поэтому

Роботс относится к стандартным текстовым документам формата .txt. Содержимое файла — необходимые параметры индексирования сайтов для поисковых роботов, с ограничениями доступа к содержимому на http-серверах.

Является стандартом исключения для роботов, принятых организацией W3C (Консорциум всемирной паутины). Robots.txt используется без принуждения поисковиком. Файл содержит несколько инструкций, запрещающих индексировать на веб-ресурсах конкретные каталоги/страницы. Иногда ресурсы не ограничивают его доступов..

Например:
User-agent: *
Allow: /

Файл в этой ситуации полностью дает разрешение индексировать весь ресурс.

Текстовой документ загружается в корневые каталоги – адрес: ваш веб-сайт.ru/robots.txt.

Чтобы разместить роботс в корне ресурса, чаще всего необходимы доступы через протокол FTP. При этом, есть CMS, дающие возможность создания файлов через встроенные FTP-менеджеры или прямо в панелях управления.

Когда документ доступен, можно увидеть в браузерах, что в нем содержится.

Особенности и необходимость


Сформированные файлы – важнейшие характеристики поисковой оптимизации сайтов. Документы в формате .txt необходим в СЕО – с его помощью из индексации будет исключена страница, в которой нет полезного содержания и т.д.


Важен robots.txt или нет? Не существует однозначного ответа. Когда применение подразумевается для исключения из поисковиков страниц, то для маленькой площадки, имеющей простую структуру, такое исключение становится лишним. При этом, даже для небольших сайтов некоторые директивы становятся полезными (Sitemap, Host). О них будет описано позже детально.

Правильное создание


Так как robots.txt относится к текстовым файлам, для его создания подходят разные текстовые редакторы на ваше усмотрение. После открывания нового документа, сразу начинается создание файла .txt. Надо только добавить содержимое, с учетом поставленных целей, а затем сохранить (вид – тестовый файл формата txt в виде робота).
С заданием легко справятся даже новички.

Создание онлайн


Самый элементарный метод. Robots.txt скачивается в готовом варианте. Для этого существует немало сервисов, доступных в интернете. Главная задача – иметь четкое представление, что разрешается/запрещается. В противном случае создание файла может принести немало проблем, особенно, когда в поиски попадает то, что должно быть невидимым. Важно проверять в роботе файлы перед их загрузкой.


Пользовательские текстовые документы отражают структуры ограничений более точно, по сравнению со сгенерированными в автоматическом режиме или скачанные с других порталов.


Как редактировать


После создания документа можно начать его редактирование. Содержимое меняется в любых вариантах. Основное – соблюдение синтаксиса робота и конкретных требований. В процессе изменений на сайтах, файл может изменяться. Поэтому, выполняя редактирования robots, понадобится загрузить на ресурс актуальные, обновленные версии документа. Важно быть внимательными с настройками, чтобы потом не возникло сложностей.


Правила настроек


Выполнив настройки robots.txt грамотно, можно быть уверенными, что частные данные не попадут в результаты поисков крупной поисковой системы. Одновременно стоит помнить, что команды файла являются защитой, а не руководствами к действиям. Робот Гугла и Яндекса выполняет инструкции robots. При этом остальные роботы нередко их игнорируют.


Для понимания того, как делать настройки, сначала надо освоить главные правила, директивы, синтаксис документа.


Правильные тестовые документы начинаются с директив user-агентов, указывающих, к каким роботам относится определенная директива.


Рассмотрим на примерах user-агентов в robots.txt.


Скриншот файла robots.txt

Необходимо учитывать, такие настройки указывают на использование только тех директив, которые соответствуют user-агентам с их именами.


Пример, имеющий несколько вхождений user-агента.


Изображение файла robots.txt

Директивы идентификационных строк клиентского приложения создают только указания конкретным роботам. После директив идут команды/команда, в которых точно указано условие для выбранных роботов. На примере видно использование запрещающей директивы Disallow (значение - /*utm. Это позволяет закрыть каждую страницу с utm-метками. Правильные настройки позволят запретить размещение между директивами пустого перевода (в рамках текущих user-агентов).


Вот как выглядит неправильный перевод строй в документе.


Фото части файла robots.txt

Правильные переводы строк в robots.txt выглядят так.


Скриншот части файла robots.txt

Из примера понятно, что инструкции в файл поступают блоком, содержащим указание либо для всех роботов, либо для какого-то отдельного.


Как можно использовать в роботе директивы совместно.


Скриншот фрагмента файла robots.txt

Видно, как индексация запрещается всем роботам на всех страницах, которые начинаются с «/blog.


Этот же пример, но правильный.


Изображение части файла robots.txt

В первую очередь запрещается полностью раздел. Затем – разрешаются отдельные его пункты.


Рассмотрим еще на одном правильном примере робота, имеющего совместимые директивы.


Изображение фрагмента файла robots.txt

Также Disallow и Allow можно указать, не используя параметры. В таких вариантах значения тактируются обратно «/». Это выглядит так.


Изображение скриншота части файла robots.txt

Каждый из вариантов правильный. Важно точно указать приоритет того, что планируется запрещать для скачиваний.

Синтаксис для самостоятельного создания robots txt без ошибок


Робот любой поисковой системы исполняет самостоятельно команды robots txt. При этом не все поисковики могут трактовать одинаково синтаксис.


Написание идеального синтаксиса не сложное. Просто надо придерживаться основных рекомендациям.



  1. Все директивы начинать с новых строк.

  2. В одной строке не использовать более 1 директивы.

  3. Параметры директив не должны превышать одной строки.

  4. Не надо использовать кавычек для параметров, точки с запятой.

  5. Не ставить в начале строк пробелы.

  6. Комментарий допустим после #.

  7. Указывать команды, используя формат (имя директивы):(необязательный пробел)(значение)(необязательный пробел).

  8. Пустые переводы строк трактуются в виде окончаний директив.

  9. Не писать параметры/названия заглавными символами.

  10. В Disallow и Allow указывать один параметр.

  11. Слишком большой robots (свыше 32 КБ) относится к полностью разрешающему, и 12. равнозначен Disallow:.

  12. Если файл недопустим по любой причине или пустой, его трактуют полностью разрешающим.

  13. Перечисление нескольких директив без пустых переводов строк игнорирует любые дальнейшие действия (исключение – первое).

  14. Недопустимо использование любого национального алфавита.


Так как поисковики трактуют синтаксис по-разному, не обязательно использовать каждый пунк. Указывается строго необходимое, все лишнее убирается. Грамотный robots txt отличается минимальным количеством строк и глубоким смыслом.


Проверка


Robots.txt рекомендуется проверять на предмет структуры документа и корректности синтаксиса. Можно использовать разные онлайн-службы. Так, в Гугле и Яндексе есть свой сервис анализа сайтов, в котором вебмастера могут выполнять анализы.


Для проверки загружается robots txt на веб-ресурс (в корневые директивы). Сначала надо провести проверку, что файл доступен по адресу размещения (например ваш портал.ru/robots.txt.).

В Гугле и Яндексе


Многие считают, что в Yandex и Google позитивно воспринимается указание в robots.txt отдельного блока user-агент:Яндекс (user-агент:Гугл). Это дает возможность выполнять управление индексации ресурсов через файл формата .txt.


Редкое исключение – когда все блоки имеют стандартные наборы директив для текстового документа. Использование различных user-агентов позволяет устанавливать запреты индексаций только для Yandex. Помимо этого, поисковая система учитывает host, поэтому правильные robots.txt для поисковика должны включать такую важную директиву.

Что означает Disallow в robots.txt


Это запрещающая директива, наиболее часто используемая в текстовом файле. Она запрещает как индексации сайтов, так и отдельные их разделы, с учетом путей, указанных в характеристиках Disallow.


Рассмотрим, как это выглядит на примере.


Изображение скриншота фрагмента файла robots.txt

Мы видим, как ресурс полностью закрыт от индексаций для любого робота.


В характеристиках директивы допустимо использование:


* - с любым количество разных символов. При этом не обязательно указание символа в завершение каждого параметра (каждая следующая директива будет интерпретироваться аналогично).


Изображение части файла robots.txt на скриншоте

$ - демонстрирует точность соответствий исключений значений параметров.


Изображение фрагмента файла robots.txt  на скриншоте

В таком случае Disallow запрещает /page, но разрешает индексировать страницу или /page/kak-skazat (/page-be-cool).


При закрытии индексации веб-ресурсов файлом поисковик может выдать ошибку «Заблокировано». Чтобы сделать запрет самим, используется как robots txt, так и схожие с ним html-теги.


Фото части файла robots.txt

Директива Allow


Относится к разрешающим директивам. Полностью отличается от Disallow, но имеет сходный с директивой синтаксис.


На примере демонстрируется, как в robots.txt запрещаются индексации всего ресурса (кроме нескольких страниц).


Фото фрагмента файла robots.txt

Пустые значения параметров в директивах Allow и Disallow


Фото скриншота части файла robots.txt

Особенности главного зеркала сайтов с Host


Данная директива указывает роботу Yandex на главное зеркало порталов. Ее распознают исключительно роботы Яндекс.


Host будет полезной, когда ресурс имеет доступ с нескольких доменов.


Фото скриншота фрагмента файла robots.txt

Такому роботу можно указать, какому из зеркал отдается приоритет. Host можно указать в виде параметров и блоке директивы (с предпочтительным адресом – без http://).


Фото части файла robots.txt на скриншоте

Доменное имя mysite.ru (без www) отмечается как главное зеркало. Адрес имеет такой вид.


Фото фрагмента файла robots.txt на скриншоте

Директиву разрешено использовать один раз. В случае, когда она указана повторно, учитывается первый вариант (все остальные игнорируются).


Чтобы отметить для робота Гугл главное зеркало, можно использовать в сервисе Google инструменты.

Директива Sitemap


С ее помощью в robots txt указываются файлы карт сайтов (sitemap.xml).


Картинка - файл robots.txt

Это дает возможности поисковым роботам определять присутствие карт веб-сайтов (с их последующей индексацией).

Clean-param: специфика


Директива нужна для исключения из индексаций страниц, отличающихся большой динамикой (с разными URL, одинаковым контентом и т.д.). То есть, такие страницы становятся доступными с различных адресов.


Цель – убрать все ненужные адреса (чаще в огромном количестве). Для этого все динамические параметры исключаются с помощью Clean-param.


Картинка - часть файла robots.txt

Что дает Crawl-delay


Директива снижает нагрузки на сервера, когда роботы начинают заходить на сайты чаще обычного. Crawl-delay необходима для ресурса с огромными объемами контента.


Картинка - фрагмент файла robots.txt

На примере видно «послание с просьбой» к роботам Яндекс выполнять скачивание не более раза за 3 секунды. Форматы с дробными числами директивы поддерживаются некоторыми поисковиками.

Robots txt и комментарии


Начинаются с # (решетка), и действуют до окончания строк. Одновременно роботом игнорируется.


Выглядит это так.


Картинка - скриншот файла robots.txt

Итог


Robots.txt относится к важнейшим, необходимым инструментам СЕО. С его помощью происходит взаимодействие с поисковыми роботами (прямое влияние на индексацию). Главное правило - использовать такой инструмент грамотно.


Картинка - файл robots.txt на скриншоте

Вам может быть интересно:

Находим клиентов !

Наш менеджер свяжется с вами, а специалисты разработают индивидуальное коммерческое предложение

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности