Правильный файл robots.txt для uCoz
Правильный файл robots.txt для uCozRobots.txt - это текстовый файл в корне сайта со специальными инструкциями для поисковых роботов. В нем вы можете указать поисковикам как индексировать ваш сайт.
По-умолчанию системой подгружается "стандартная заглушка", в которую добавлено большинство "правильных" команд, но все же их бывает не достаточно.
Напоминаю, что новый сайт на юкозе первый месяц находится на т.н. "карантине", то-бишь он запрещен к индексации. Это испытательный период, который дается вашему сайту, чтобы доказать свою "серьезность". За это время вам стоит продумать структуру сайта, наполнить его уникальным контентом, подчистить шаблон, обзавестись социальными аккаунтами и т.д. После 30-ти дней испытательного срока карантин будет снят и вы получите свободный доступ к robots.txt
Стоит также отметить что карантин будет снят немедленно если вы закажете любую дополнительную услугу на сумму >$2.
Теперь приступаем к делу.
Вот так выглядит стандартный файл robots.txt от uCoz:
User-agent: *
Если вы хотите внести какие-то правки - вам необходимо создать текстовый файл robots.txt в корне своего сайта и уже в него вносить изменения. В этом случае системой будет отдаваться ваш кастумный robots.txt
В принципе базовый файл настроен правильно - все лишнее от индексирования закрыто. Но как говорится нет предела совершенству и поэтому я немного изменил его содержание "под себя".
Не так давно я уже писал заметку о дублях SSID для главной страницы - поэтому у меня уже есть правило, которое убирает с индекса эти "ляпы" системы.
Но недавно появились новые "дубли":
http://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31 - правильный урл
http://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31&post=-28741529_11198 - дубль
Поисковые системы очень негативно относятся к наличию дублированного контента в индексе. Поэтому подобные урлы нужно закрыть. Устранить саму причину появления невозможно, так что будем бороться с последствиями. В данном случае строкой:
Выделяем необходимое
Disallow: /*&*
Еще, я хочу, что бы не индексировались страницы навигации, для них создаю правила:
Выделяем все необходимое
Disallow: /news/1
На этом собственно все. Теперь мой robots.txt правильно настроен и должен устранить все "ляпы" системы (которые проявили себя на данный момент на модуле Блог).
Источник: http://eroman.okis.ru/ | |
Просмотров: 635 | | |
Всего комментариев: 0 | |