[ИНСУЛЬТ ]

Правильный файл robots.txt для uCoz

Правильный файл robots.txt для uCoz

 
Robots.txt - это текстовый файл в корне сайта со специальными инструкциями для поисковых роботов. В нем вы можете указать поисковикам как индексировать ваш сайт. 
 
По-умолчанию системой подгружается "стандартная заглушка", в которую добавлено большинство "правильных" команд, но все же их бывает не достаточно.
 
Напоминаю, что новый сайт на юкозе первый месяц находится на т.н. "карантине", то-бишь он запрещен к индексации. Это испытательный период, который дается вашему сайту, чтобы доказать свою "серьезность". За это время вам стоит продумать структуру сайта, наполнить его уникальным контентом, подчистить шаблон, обзавестись социальными аккаунтами  и т.д. После 30-ти дней испытательного срока карантин будет снят и вы получите свободный доступ к robots.txt
 
Стоит также отметить что карантин будет снят немедленно если вы закажете любую дополнительную услугу на сумму >$2. 
 
Теперь приступаем к делу.
 
Вот так выглядит стандартный файл robots.txt от uCoz:
 
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=

Sitemap: http://forum.ucoz.ru/sitemap.xml
Sitemap: http://forum.ucoz.ru/sitemap-forum.xml
Sitemap: http://forum.ucoz.ru/sitemap-shop.xml

 

Если вы хотите внести какие-то правки - вам необходимо создать текстовый файл robots.txt в корне своего сайта и уже в него вносить изменения. В этом случае системой будет отдаваться ваш кастумный robots.txt
 
В принципе базовый файл настроен правильно - все лишнее от индексирования закрыто. Но как говорится нет предела совершенству и поэтому я немного изменил его содержание "под себя".
Не так давно я уже писал заметку о дублях SSID для главной страницы - поэтому у меня уже есть правило, которое убирает с индекса эти "ляпы" системы. 
 
Но недавно появились новые "дубли": 
 
http://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31 - правильный урл
http://uguide.ru/news/ucoz_shablon_dlja_detskogo_sada/2012-11-29-31&post=-28741529_11198 - дубль
 
Поисковые системы очень негативно относятся к наличию дублированного контента в индексе. Поэтому подобные урлы нужно закрыть. Устранить саму причину появления невозможно, так что будем бороться с последствиями. В данном случае строкой:
Выделяем необходимое
Disallow: /*&*

 

Еще, я хочу, что бы не индексировались страницы навигации, для них создаю правила:
Выделяем все необходимое
Disallow: /news/1
Disallow: /news/2
Disallow: /news/3
Disallow: /news/4
Disallow: /news/5

 

На этом собственно все. Теперь мой robots.txt правильно настроен и должен устранить все "ляпы" системы (которые проявили себя на данный момент на модуле Блог).

 



Источник: http://eroman.okis.ru/
Категория: ИНТЕРНЕТ | Добавил: Толян (01.04.2014) | Автор: Левченко Наталья Николаевна
Просмотров: 583 | Теги: ляпы, Устранить саму причину, Дубли, под себя, robots.txt, файл robots.txt, серьезность, индексирования, мой robots.txt, правильных | Рейтинг: 5.0/2
Всего комментариев: 0
avatar