Минимум 3 года не отслеживал перемены в использовании и директивах robots.txt. Тогда и статьи в содержании блога о robots.txt и заметка немного стали неактуальными. Из справки Yandex’а возможно судить о конфигурациях: обрабатываются спецсимволы “*” и “?”, директива лимитирования частоты запросов Crawl-Delay, в первый раз засветившаяся у Yahoo в 2006-м году, скажем Allow, и еще неизвестная мне раньше Clean-param.
На предмет обработки спецсимволов для подмены последовательностей и директивы Crawl-Delay – все как бы ясно, “звездочку” постоянно употребляли для подмены последовательностей знаков, лимитирование частоты запросов, особенно для солидных web-сайтов также вещь нужная.
А Allow и Clean-param вроде и понятны, хотя есть интересные моменты. А именно то, что в очередности Allow/Disallow в масштабах одной секции предусматривается 1-ая, в случае если немного директив имеют все шансы применяться к особому URL.
Особо устрашает Allow: в отсутствии ничего, запрещающая индексацию всего вебсайта (аналог Disallow: /). В случае Clean-Param надо взять в толк, как обрабатываются гиперссылки на эти странички и рассматриваются ли странички как дубли?
Короче говоря любопытно до чего же дошел прогресс!
Читайте далее:
Robots.txt — это файл, который сообщает поисковым системам, какие страницы Вы хотите индексировать, а какие нет. Он используется для того, чтобы исключить определенные URL из индексации и обозначить их как «неиндексируемые», например.