Директивы в файле robots.txt

Как правильно писать директивы в файле robots.txt

Минимум 3 года не отслеживал перемены в использовании и директивах robots.txt. Тогда и статьи в содержании блога о robots.txt и заметка немного стали неактуальными. Из справки Yandex’а возможно судить о конфигурациях: обрабатываются спецсимволы “*” и “?”, директива лимитирования частоты запросов Crawl-Delay, в первый раз засветившаяся у Yahoo в 2006-м году, скажем Allow, и еще неизвестная мне раньше Clean-param.

Как правильно писать директивы в файле robots.txt

На предмет обработки спецсимволов для подмены последовательностей и директивы Crawl-Delay – все как бы ясно, “звездочку” постоянно употребляли для подмены последовательностей знаков, лимитирование частоты запросов, особенно для солидных web-сайтов также вещь нужная.

А Allow и Clean-param вроде и понятны, хотя есть интересные моменты. А именно то, что в очередности Allow/Disallow в масштабах одной секции предусматривается 1-ая, в случае если немного директив имеют все шансы применяться к особому URL.

Особо устрашает Allow: в отсутствии ничего, запрещающая индексацию всего вебсайта (аналог Disallow: /). В случае Clean-Param надо взять в толк, как обрабатываются гиперссылки на эти странички и рассматриваются ли странички как дубли?

Короче говоря любопытно до чего же дошел прогресс!

Читайте далее:
Понравилась статья? Поделиться с друзьями:
Комментарии: 1
  1. Назар

    Robots.txt – это файл, который сообщает поисковым системам, какие страницы Вы хотите индексировать, а какие нет. Он используется для того, чтобы исключить определенные URL из индексации и обозначить их как “неиндексируемые”, например.

Комментарии закрыты.