Главная » Статьи » Интересные статьи

Как работать с файлом robots.txt
В этой статей я постараюсь описать как можно управлять индексацией своего сайта с помощью одного файла robots.txt и что он представляет из себя. Наверное иногда веб мастеру или владельцу какого-нибудь ресурса нужно закрыть от индексации часть сайта, определенный файл или каталог. Почти все роботы позволяют это сделать: -Разместить в корневой папке своего сайта текстовый файл robots.txt, выгладить будет так www.site.ru/robots.txt -Также это можно сделать в html файле используя специальный META тэг -Использовать нестандартные приемы, работающие для конкретных поисковых роботов роботов. Например запретить роботу следовать по ссылке при помощи rel=”nofollow”(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега (Yandex, Rambler). Следует помнить, что все эти методы не дают стопроцентной гарантии. Некоторые поисковые роботы могут попросту не обращать на них внимание, тогда нам на помощь придет файл robots.txt(который укротит поведение поисковых роботов на вашем сайте). Помните, что файл robots.txt нужно класть только в корневую директорию вашего сайта, и не забывайте, что название файла robots.txt должно быть написано в нижнем регистре, посмотрите примеры: http://www.w3.org/admin/robots.txt Файл находится не в корне сайта, а в папке admin, там поисковый робот не будет учитывать файл robots.txt http://www.w3.org/~timbl/robots.txt Файл находится не в корне сайта, таже ситуация, что и в первом случае ftp://ftp.w3.com/robots.txt Поисковые роботы не индексируют ftp http://www.w3.org/Robots.txt Название файла не в нижнем регистре, файл должен быть назван только robots.txt Теперь давайте разберемся с содержимым файла robots.txt. Обычно в этом файле пишут, нечто похожее этому: User-agent: * Disallow: /cgi-bin/ Disallow: /download/ В этом примере запрещена индексация двух директорий сайта, это папки: cgi-bib и папка download. Нужно помнить, что нужно писать каждую директорию с новой строчки, а не подряд, пример неправильного написания: «Disallow: /cgi-bin/ /download/» Строчка User-agent: * означает, что это относится ко всем поисковым роботам, но можно и указать самому поисковых роботов, которые должны соблюдать эти правила, например User-agent: GOOGLE BOT Строчка Disallow: /cgi-bin/ запрещяет от индексации папку cgi-bin, которая находится у вас на сервере Если вы хотите полностью запретить свой сайт от индексации поисковыми роботами, напишите в файле robots.txt следующий код: User-agent: * Disallow: / Это полностью запретит индексировать ваш сайт, и относится это будет ко всем поисковым роботам. Противоположный пример предыдущему, здесь мы разрешаем индексировать сайт любому роботу: User-agent: * Disallow: Или вы можете просто создать пустой файл robots.txt, это тоже будет означать, что поисковые роботы могут индексировать ваш сайт без запретов и ограничений. В этом примере показано как разрешить индексацию сайта одному роботу и запретить всем остальным роботам: User-agent: Rambler Disallow: User-agent: * Disallow: / Здесь мы разрешили индексацию сайта, только одному поисковому роботу, это Rambler (www.rambler.ru) Если вам нужно запретить в индексации определенные файлы, например страничку aboume.htm или passwords.html и.т.п,для этого воспользуйтесь следующим кодом: User-agent: * Disallow: /aboutme.htm Disallow: /passwords.html Disallow: /icq.txt Здесь мы запретили к индексации три файла, это: aboutme.htm, passwords.html, icq.txt, вы можете указать больше файлов В самом начале я говорил, что индексацией своего сайта можно управлять через специальные META тэги, пора о них поговорить. Итак, существуйте два атрибута META тэга, которые за это отвечают, это NOFOLLOW и NOINDEX. Рассмотрите два примеры с применением META тэгов. В этом случае документ не будет проиндексирован. Напомню эту строчку надо вставлять в свою страничку, вы можете указывать для каждой странички свои значения META тэгов. Данная страничка будет проиндексирована поисковым роботом, но он не будет переходить по ссылкам, которые находятся на этой странички. На этом все, думаю вы разберетесь с этим файлом! Удачи!
Категория: Интересные статьи | Добавил: direktor (24.07.2011)
Просмотров: 976 | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]