Полноценный Google Sitemap для сайта на TYPO3
Пост вызван давно назревшей потребностью сделать sitemap который охватывает большую часть контента сайта, и обновившимся в репозитории экстом dd_googlesitemap от Дмитрий Дулепова. Это экст который "avoids typical errors by other similar extensions".
Но как показывает поверхностное знакомство, он не делает того что мне нужно. Все подобные эксты формируют учитывают записи страниц и некоторые еще записи из tt_news (как dd_googlesitemap). Причем все записи tt_news будут ссылаться на одну страницу (один и тот же single pid). Но сайт побольше может содержать не только новости, но еще и другие разделы - каталог компаний, каталог мероприятий, каталог объектов недвижимости и много других. Причем и новости и другой контент может быть разнесен на разные страницы в зависимости от категории, назначения. И все они в идеале должны быть добавлены и актуальны в sitemap. Как подойти к решению это проблемы? Как решаете ее вы? Сейчас в голове крутятся такой вариант: 1. Сделать в каждом *своем* эксте обработчик для pageType=xxx (http://.../?type=xxx), и по этому значению type выводить вместо обычного контента тот же контент в формате sitemap.xml 2. Для сторонних экстов (тот же tt_news) - сделать аналог с помощью TS.CONTENT. 3. Собрать со всех страниц то, что они ответят на type=xxx в один sitemap или вывести отдельный sitemap для каждой страницы (раздела) - http://www.seomoz.org/blog/multiple-...on-and-traffic Плюсы - возможность охватить весь контент, ведь даже самый навороченный sitemap-экст не может знать на каких страницах, что и как сконфигурировано, что бы составить полный перечень всех url. Минусы - сложность решения. |
XML sitemap по сути та же страница с ссылками, т.е. гигантским меню всего и вся. Ее вполне можно сделать написав альтернативный TS шаблон для, скажем, typeNum=33333
|
Да, это и похоже на мою идею. Только одним шаблоном это не решить - шаблон выводит одну страницу, а на сайте может быть пару десятков разделов раскиданных на разных ветках. Под разделом я имею в виду страницу с неким плагином (например tt_news), то есть когда одна "физическая" страница в TYPO3 содержит еще десятки-сотни-тысячи виртуальных страниц (например tt_news single view).
|
Я приведу пример:
http://www.rzhevrealty.ru/sitemap.xml выводится вот этим вот шаблоном: Код:
[globalVar = GP:type > 0] |
Да, простой и полезный код.
Но на сколько я понимаю у вас записи для tx_estateagent_pi1 хранятся на тех же страницах на которых выводятся. Это упрощает решение. Но в моем случае такая реализация будет затруднительна. Например, записи "компании" хранятся в нескольких SysFolder, и выводятся на нескольких разных страницах в зависимости от SysFolder и категории. Откуда выводить компании (SysFolder) и каких категорий задается в FlexForm плагина на странице. Получается всю такую конфигурацию для всего сайта нужно продублировать в шаблоне для typeNum = 777. Получится очень длинный шаблон с большим количеством кода, и следовательно легко что-то забыть там добавить, забыть вносить изменения сделанные в конфигурации разделов. Теперь думаю сделать так как вы написали, но для каждого раздела (некоторые страницы) сделать свою конфигурацию для sitemap, так проще ее поддерживать актуальной. И потом написать что-то вроде crawler-a, который: 1. будет проходить по всем страницам, запрашивать их с typeNum = 777 2. если получит в ответ валидный xml (это sitemap.xml для этого раздела), то добавит в общий sitemap index файл ( http://www.sitemaps.org/protocol.html#index) 3. ну и конечно sitemap обычных страниц тоже в sitemap index включит. |
Я когда продумывал как это сделать как раз прислушался к совету Валерия размещать все записи непосредственно на страницах, так их действительно проще вынимать для sitemap.
А по поводу длины шаблонов - тут не нужно боятся, надо просто комментировать для себя и заодно где возможно использовать саму базу и бэкенд, т.е. какие-то данные вводить в скрытый контент в бэкенде и т.п. |
понятно, что на TS можно написать что угодно, но ДЛЯ СОЗДАННОГО ТОБОЮ САЙТА, то есть это решение не охватывает сути...
Ну а по делу... это как RealURL - если кто для него пишет решения - то велком, а нет, так придумывайте - не обяжешь... Или решения есть, вроде привязывания меток к страницам, контенту, кешируемому содержимому и т.п.? По сути: расшифруйте, что нужно от этой карты сайта? Отметить страницы и содержимое (в том числе виртуальные, типа новостей) и далее??? |
Цитата:
1. что бы поисковики быстрей индексировали новый контент. 2. и желательно не переиндексировали старый. |
А если как раз использовать кэш realurl?
|
Цитата:
|
Ну и уж точно кэш RealURL не содержит даты последнего изменения содержания страницы, которая также важна для sitemap. Там кажется есть только дата генерации URL, а это не то же самое.
|
Ну нет конечно. однако я думаю скрипт получится не такой сложный, если брать таблицы cashe_pages, pages, tx_realurl_urldecodecache, tx_realurl_patchcache - то объединяя эти данные вполне можно построить sitemap.xml - тут естественно в sitemap попадут только страницы, которые хоть раз просматривались...
|
Вот как раз с pages нет никаких проблем построить sitemap. Речь изначально шла о том, что на одной странице (из pages) может стоять плагин как USER_INT - значит caсhe_** не помогут. Это может быть тот же tt_news, который выводит 10 000 новостей - фактически "виртуальных" страниц о которых ни ядро, ни кэши ничего не знают (или еще не знают). Ведь что бы получить URL страницы конкретной записи нужно знать конфигурацию плагина (из TS), то как он формируется ссылки на "подробнее" (PHP код плагина) и добавить к этому конфигурацию RealURL.
Например, я хочу что бы добавленная на сайт новость сначала появилась в sitemap, и только потом с некоторой задержкой стала доступна в списке новостей в FE. Зачем думаю понятно - что бы контент не успели своровать раньше, чем поисковики проиндексируют новую страницу. PS: В общем задача в таком виде и обсуждалась сначала ветки. |
Я о том тоже и говорю, что построить sitemap возможно лишь когда страница была открыта и посещена. Кстати, второй вариант - программка-обходчик страниц сайта по внутренним ссылкам на них с построением карты.
А вопрос авторства сейчас неплохо решается соответствующими сервисами в том же Яндекс.Вебмастере. На гугле такое по моему то же есть. |
Цитата:
Цитата:
Ручной режим не подходит. Вид информации не подходит под требования Яндекса об уникальности и его нельзя подтвердить. Информацию по объявлениям очень многие тырят. Поисковиков много и у каждого свой способ подтвердить уникальность, или вообще нет такого способа. Sitemap же универсален, его все понимают. |
Да-да-да. Всё упирается в объемы. Теперь вижу по количеству страниц и обновлений.
Тогда надо просекать логику работы используемых экстов, прописанные в конкретном данном случае правила формирования адресов realurl. Скорее всего какого-то общего, подходящего для всех решения (куда бы ни установил - работает) - не получится. Всегда надо будет допиливать под конкретные условия. |
Да, для небольшого редко обновляемого сайта проблем с картой сайта нет.
В таком случае можно организовать все данные в удобном виде для генерации sitemap и обойтись одним TS конфигом, который приведен в этой ветке выше уважаемым -=UncleByte=-. |
Да уж, одного, универсального решения тут быть не может. Ведь создатели расширений - кто в лес, кто по дрова, как хотя, так и пишут. Знали бы вы, что твориться в мультишоп, я вот до сих пор логику работы до конца не понял...
Кроме того, сайтмап - это уже поисковая оптимизация, за работу над которой нужно брать отдельную плату... Конечно хотелось бы без проблем и все в одном флаконе, да вот нет. |
Вот сейчас тоже копал, накопал экст Дмитрия Дулепова dd_googlesitemap http://typo3.org/extensions/reposito..._googlesitemap корректно работающий с tt_news. Буду пробовать. Может быть в вашем случае пригодится его логика?
|
Вернулись к исходному посту темы, который как раз начался с dd_googlesitemap :)
|
Цитата:
По поводу этого экста. На самом деле - не один singlepid. Просто для каждого singlpid'a строится отдельный sitemap. и гугл и яндекс, как я помню, прекрасно понимают несколько сайтмапов - тут ничего страшного нет |
Да, я тоже уже понял что одним sitemap не обойтись. Как и одним экстеншеном для его генерации.
|
А как насчет этого расширения: tq_seo?
Никто не пробовал? |
По описанию функций много. Но USER_INT эксты отпадают:
Цитата:
|
а вот этот экст? crawler?
|
|
Часовой пояс GMT +4, время: 14:23. |
Работает на vBulletin® версия 3.8.1.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot