Правильный файл robots.txt для uCoz - ИНТЕРНЕТ - Каталог статей - Инсульт, реабилитация после инсульта. Личные наблюдения

Правильный файл robots.txt для uCoz

Robots.txt - это текстовый файл в корне сайта со специальными инструкциями для поисковых роботов. В нем вы можете указать поисковикам как индексировать ваш сайт.

По-умолчанию системой подгружается "стандартная заглушка", в которую добавлено большинство "правильных" команд, но все же их бывает не достаточно.

Напоминаю, что новый сайт на юкозе первый месяц находится на т.н. "карантине", то-бишь он запрещен к индексации. Это испытательный период, который дается вашему сайту, чтобы доказать свою "серьезность". За это время вам стоит продумать структуру сайта, наполнить его уникальным контентом, подчистить шаблон, обзавестись социальными аккаунтами и т.д. После 30-ти дней испытательного срока карантин будет снят и вы получите свободный доступ к robots.txt

Стоит также отметить что карантин будет снят немедленно если вы закажете любую дополнительную услугу на сумму >$2.

Теперь приступаем к делу.

Вот так выглядит стандартный файл robots.txt от uCoz:

User-agent: * 

Disallow: /a/ 

Disallow: /stat/ 

Disallow: /index/1 

Disallow: /index/2 

Disallow: /index/3 

Disallow: /index/5 

Disallow: /index/7 

Disallow: /index/8 

Disallow: /index/9 

Disallow: /panel/ 

Disallow: /admin/ 

Disallow: /secure/ 

Disallow: /informer/ 

Disallow: /mchat 

Disallow: /search 

Disallow: /shop/order/ 

Disallow: /?ssid= 



Sitemap: http://forum.ucoz.ru/sitemap.xml 

Sitemap: http://forum.ucoz.ru/sitemap-forum.xml 

Sitemap: http://forum.ucoz.ru/sitemap-shop.xml

Если вы хотите внести какие-то правки - вам необходимо создать текстовый файл robots.txt в корне своего сайта и уже в него вносить изменения. В этом случае системой будет отдаваться ваш кастумный robots.txt

В принципе базовый файл настроен правильно - все лишнее от индексирования закрыто. Но как говорится нет предела совершенству и поэтому я немного изменил его содержание "под себя".

Не так давно я уже писал заметку о дублях SSID для главной страницы - поэтому у меня уже есть правило, которое убирает с индекса эти "ляпы" системы.

Но недавно появились новые "дубли":

http://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31 - правильный урл

http://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31&post=-28741529_11198 - дубль

Поисковые системы очень негативно относятся к наличию дублированного контента в индексе. Поэтому подобные урлы нужно закрыть. Устранить саму причину появления невозможно, так что будем бороться с последствиями. В данном случае строкой:

Выделяем необходимое

Disallow: /*&*

Еще, я хочу, что бы не индексировались страницы навигации, для них создаю правила:

Выделяем все необходимое

Disallow: /news/1 

Disallow: /news/2 

Disallow: /news/3 

Disallow: /news/4 

Disallow: /news/5

На этом собственно все. Теперь мой robots.txt правильно настроен и должен устранить все "ляпы" системы (которые проявили себя на данный момент на модуле Блог).

Источник: http://eroman.okis.ru/

Категория: ИНТЕРНЕТ | Добавил: Толян (01.04.2014) | Автор: Левченко Наталья Николаевна

Просмотров: 652 | Теги: Ляпы, Устранить саму причину, дубли, под себя, robots.txt, файл robots.txt, серьезность, индексирования, мой robots.txt, правильных | Рейтинг: 5.0/2

Всего комментариев: 0

E-mail:
Пароль: