PDA

Просмотр полной версии : Убить дубли


vedomir
26.11.2009, 23:51
Все кто установил REALURL знают, что страница остается доступной и по index.php?id=
Что создает так называемые "дубли" страниц которые создают неприятности при индексации сайта. Можно ли совсем запретить покавать страницы по кривой ссылке с id или хотя бы ставить тэги <noindex> в тело таких страниц?

void
27.11.2009, 03:17
http://forum.typo3.biz/showthread.php?t=6663

webberry
28.06.2012, 19:45
Добрый день
Расширение Force RealURLs решает проблему для дублей типа index.php?..,

Но если многоязычный сайт то страницы типа (onas/, en/about/, de/uberaus/)
работают и так:(about/, en/uberaus/, de/onas/)
И в других вариантах (about/, uberaus/, onas/) -все это ведет на одну страницу

Пример здесь: http://www.dvbank.ua/en/retail-banking/depoziti/, http://www.dvbank.ua/ru/retail-banking/depoziti/, http://www.dvbank.ua/retail-banking/depoziti/ и так далее.

Что делать. Может конфиг RealURL неправильный?

dmartynenko
28.06.2012, 20:49
На сколько я понимаю внутренню работу RealURL - решений нет. В данном случае эти названия являются синонимами id и сохраняются где-то в табличке. Префикс en/de или его отсутствие - это отдельная часть url, которая обрабатывается без учета id или синонимов.

У вас одна надежда - поисковики индексируют ссылки взятые с вашего сайта. Если в найденных поисковиками ссылках не будет путаницы, то и дублирования быть не должно.

Еще вариант - добавить в метатэги правильный canonical url. В таком случае даже если страница будет по разным адресам, то поисковики должны привязывать контент к canonical url.

webberry
03.07.2012, 15:01
Спасибо за ответ, но ключевое слово "должны". Метатеги все дальше и дальше игнорируются поисковиками. Даже запись в robot.txt "disallow all" или атрибуты nofolow в ссылках уже нечего не значат.

Странно что не нашли такого решения. А есть ли расширения для всатвки каноничных ссылок, или конфиг какой-то?

Буду благодарен за ответ. И возможно кто-то еще решал эту проблему. В теории если ЧПУ формируются с id то и параметр можно интерпритировать как часть ЧПУ.

webberry
24.01.2013, 17:59
Немало времени прошло, может кто-то все таки решал проблему. Может кто-то нашел решения. Очень завязаны на realurl но по всем проектам СЕО-шники выносят мозг из-за дублирования всех страниц.
Может кто-то возьмется решить проблему за некоторое вознаграждение (можно скинуться).

dmartynenko
24.01.2013, 18:06
Откуда у вас беруться ссылки на неправильные URL ?
Разберитесь сначала с этим.

sever
25.01.2013, 13:11
Пропишите в robots.txt
Disallow: /*?id=*
со временем ссылки с ?id= уйдут из индекса поисковика. На Яндексе точно работает.

dmartynenko
25.01.2013, 13:15
Пропишите в robots.txt

Вы исходный вопрос webberry не прочитали. Проблемы с id у него нет.

webberry
25.01.2013, 13:38
Откуда у вас беруться ссылки на неправильные URL ?
Разберитесь сначала с этим.

А его знает. скорей всего Google индексирует все что можно и как попало. На многих cms есть та же проблема с "/" в конце и без него, хотя на всем сайте все ссылки только с "/". Так это лечится .htaccess.

А в этом случае единственный выход заставить typo3 генерировать одинаковые псевдонимы для разных языков, но как это можно сделать?

dmartynenko
25.01.2013, 14:17
Google индексирует все что можно и как попало

Ну если ссылки в природе не существует, как ее можно проиндексировать?
Скорее всего-то в коде ваших страницах есть все эти ссылки, и это явление массовое.

Ведь в принципе не существует простого способа для *любой* CMS проверить ссылка "правильная" или нет.
В вашем случае я тоже указал почему RealURL этого не может.

Например, у вас есть сайт http://www.yahoo.com/, и вы сами (или не вы) где-то на него размещаете ссылки вида http://www.yahoo.com/?test=1 и http://www.yahoo.com/?fignya=2 и т.п.

Понятно дело что сайт ничего не знает ни о test=1, ни о других таких параметрах, поэтому выдаст просто главную страницу.
А для поисковиков это будет 3 разных страницы, но все дубли друг друга.

Вот тэг canonical для этого и придуман, что бы отсеять лишнее. Те же параметры utm_* для гугл-аналитики повсеместно используются, но формально для поисковиков (кроме, наверное, самого гугла) должны создавать дубли страниц.
http://typo3.org/extensions/repository/?id=23&L=0&q=canonical