Особенности и необходимость
Сформированные файлы – важнейшие характеристики поисковой оптимизации сайтов. Документы в формате .txt необходим в СЕО – с его помощью из индексации будет исключена страница, в которой нет полезного содержания и т.д.
Важен robots.txt или нет? Не существует однозначного ответа. Когда применение подразумевается для исключения из поисковиков страниц, то для маленькой площадки, имеющей простую структуру, такое исключение становится лишним. При этом, даже для небольших сайтов некоторые директивы становятся полезными (Sitemap, Host). О них будет описано позже детально.
Правильное создание
Так как robots.txt относится к текстовым файлам, для его создания подходят разные текстовые редакторы на ваше усмотрение. После открывания нового документа, сразу начинается создание файла .txt. Надо только добавить содержимое, с учетом поставленных целей, а затем сохранить (вид – тестовый файл формата txt в виде робота).
С заданием легко справятся даже новички.
Создание онлайн
Самый элементарный метод. Robots.txt скачивается в готовом варианте. Для этого существует немало сервисов, доступных в интернете. Главная задача – иметь четкое представление, что разрешается/запрещается. В противном случае создание файла может принести немало проблем, особенно, когда в поиски попадает то, что должно быть невидимым. Важно проверять в роботе файлы перед их загрузкой.
Пользовательские текстовые документы отражают структуры ограничений более точно, по сравнению со сгенерированными в автоматическом режиме или скачанные с других порталов.
Как редактировать
После создания документа можно начать его редактирование. Содержимое меняется в любых вариантах. Основное – соблюдение синтаксиса робота и конкретных требований. В процессе изменений на сайтах, файл может изменяться. Поэтому, выполняя редактирования robots, понадобится загрузить на ресурс актуальные, обновленные версии документа. Важно быть внимательными с настройками, чтобы потом не возникло сложностей.
Правила настроек
Выполнив настройки robots.txt грамотно, можно быть уверенными, что частные данные не попадут в результаты поисков крупной поисковой системы. Одновременно стоит помнить, что команды файла являются защитой, а не руководствами к действиям. Робот Гугла и Яндекса выполняет инструкции robots. При этом остальные роботы нередко их игнорируют.
Для понимания того, как делать настройки, сначала надо освоить главные правила, директивы, синтаксис документа.
Правильные тестовые документы начинаются с директив user-агентов, указывающих, к каким роботам относится определенная директива.
Рассмотрим на примерах user-агентов в robots.txt.
Необходимо учитывать, такие настройки указывают на использование только тех директив, которые соответствуют user-агентам с их именами.
Пример, имеющий несколько вхождений user-агента.
Директивы идентификационных строк клиентского приложения создают только указания конкретным роботам. После директив идут команды/команда, в которых точно указано условие для выбранных роботов. На примере видно использование запрещающей директивы Disallow (значение - /*utm. Это позволяет закрыть каждую страницу с utm-метками. Правильные настройки позволят запретить размещение между директивами пустого перевода (в рамках текущих user-агентов).
Вот как выглядит неправильный перевод строй в документе.
Правильные переводы строк в robots.txt выглядят так.
Из примера понятно, что инструкции в файл поступают блоком, содержащим указание либо для всех роботов, либо для какого-то отдельного.
Как можно использовать в роботе директивы совместно.
Видно, как индексация запрещается всем роботам на всех страницах, которые начинаются с «/blog.
Этот же пример, но правильный.
В первую очередь запрещается полностью раздел. Затем – разрешаются отдельные его пункты.
Рассмотрим еще на одном правильном примере робота, имеющего совместимые директивы.
Также Disallow и Allow можно указать, не используя параметры. В таких вариантах значения тактируются обратно «/». Это выглядит так.
Каждый из вариантов правильный. Важно точно указать приоритет того, что планируется запрещать для скачиваний.
Синтаксис для самостоятельного создания robots txt без ошибок
Робот любой поисковой системы исполняет самостоятельно команды robots txt. При этом не все поисковики могут трактовать одинаково синтаксис.
Написание идеального синтаксиса не сложное. Просто надо придерживаться основных рекомендациям.
- Все директивы начинать с новых строк.
- В одной строке не использовать более 1 директивы.
- Параметры директив не должны превышать одной строки.
- Не надо использовать кавычек для параметров, точки с запятой.
- Не ставить в начале строк пробелы.
- Комментарий допустим после #.
- Указывать команды, используя формат (имя директивы):(необязательный пробел)(значение)(необязательный пробел).
- Пустые переводы строк трактуются в виде окончаний директив.
- Не писать параметры/названия заглавными символами.
- В Disallow и Allow указывать один параметр.
- Слишком большой robots (свыше 32 КБ) относится к полностью разрешающему, и 12. равнозначен Disallow:.
- Если файл недопустим по любой причине или пустой, его трактуют полностью разрешающим.
- Перечисление нескольких директив без пустых переводов строк игнорирует любые дальнейшие действия (исключение – первое).
- Недопустимо использование любого национального алфавита.
Так как поисковики трактуют синтаксис по-разному, не обязательно использовать каждый пунк. Указывается строго необходимое, все лишнее убирается. Грамотный robots txt отличается минимальным количеством строк и глубоким смыслом.
Проверка
Robots.txt рекомендуется проверять на предмет структуры документа и корректности синтаксиса. Можно использовать разные онлайн-службы. Так, в Гугле и Яндексе есть свой сервис анализа сайтов, в котором вебмастера могут выполнять анализы.
Для проверки загружается robots txt на веб-ресурс (в корневые директивы). Сначала надо провести проверку, что файл доступен по адресу размещения (например ваш портал.ru/robots.txt.).
В Гугле и Яндексе
Многие считают, что в Yandex и Google позитивно воспринимается указание в robots.txt отдельного блока user-агент:Яндекс (user-агент:Гугл). Это дает возможность выполнять управление индексации ресурсов через файл формата .txt.
Редкое исключение – когда все блоки имеют стандартные наборы директив для текстового документа. Использование различных user-агентов позволяет устанавливать запреты индексаций только для Yandex. Помимо этого, поисковая система учитывает host, поэтому правильные robots.txt для поисковика должны включать такую важную директиву.
Что означает Disallow в robots.txt
Это запрещающая директива, наиболее часто используемая в текстовом файле. Она запрещает как индексации сайтов, так и отдельные их разделы, с учетом путей, указанных в характеристиках Disallow.
Рассмотрим, как это выглядит на примере.
Мы видим, как ресурс полностью закрыт от индексаций для любого робота.
В характеристиках директивы допустимо использование:
* - с любым количество разных символов. При этом не обязательно указание символа в завершение каждого параметра (каждая следующая директива будет интерпретироваться аналогично).
$ - демонстрирует точность соответствий исключений значений параметров.
В таком случае Disallow запрещает /page, но разрешает индексировать страницу или /page/kak-skazat (/page-be-cool).
При закрытии индексации веб-ресурсов файлом поисковик может выдать ошибку «Заблокировано». Чтобы сделать запрет самим, используется как robots txt, так и схожие с ним html-теги.
Директива Allow
Относится к разрешающим директивам. Полностью отличается от Disallow, но имеет сходный с директивой синтаксис.
На примере демонстрируется, как в robots.txt запрещаются индексации всего ресурса (кроме нескольких страниц).
Пустые значения параметров в директивах Allow и Disallow
Особенности главного зеркала сайтов с Host
Данная директива указывает роботу Yandex на главное зеркало порталов. Ее распознают исключительно роботы Яндекс.
Host будет полезной, когда ресурс имеет доступ с нескольких доменов.
Такому роботу можно указать, какому из зеркал отдается приоритет. Host можно указать в виде параметров и блоке директивы (с предпочтительным адресом – без http://).
Доменное имя mysite.ru (без www) отмечается как главное зеркало. Адрес имеет такой вид.
Директиву разрешено использовать один раз. В случае, когда она указана повторно, учитывается первый вариант (все остальные игнорируются).
Чтобы отметить для робота Гугл главное зеркало, можно использовать в сервисе Google инструменты.
Директива Sitemap
С ее помощью в robots txt указываются файлы карт сайтов (sitemap.xml).
Это дает возможности поисковым роботам определять присутствие карт веб-сайтов (с их последующей индексацией).
Clean-param: специфика
Директива нужна для исключения из индексаций страниц, отличающихся большой динамикой (с разными URL, одинаковым контентом и т.д.). То есть, такие страницы становятся доступными с различных адресов.
Цель – убрать все ненужные адреса (чаще в огромном количестве). Для этого все динамические параметры исключаются с помощью Clean-param.
Что дает Crawl-delay
Директива снижает нагрузки на сервера, когда роботы начинают заходить на сайты чаще обычного. Crawl-delay необходима для ресурса с огромными объемами контента.
На примере видно «послание с просьбой» к роботам Яндекс выполнять скачивание не более раза за 3 секунды. Форматы с дробными числами директивы поддерживаются некоторыми поисковиками.
Robots txt и комментарии
Начинаются с # (решетка), и действуют до окончания строк. Одновременно роботом игнорируется.
Выглядит это так.
Итог
Robots.txt относится к важнейшим, необходимым инструментам СЕО. С его помощью происходит взаимодействие с поисковыми роботами (прямое влияние на индексацию). Главное правило - использовать такой инструмент грамотно.