1. Есть такой экстеншн
crawler - его назначение как раз таки проходится по всей структуре страниц.
Используется в стандартном TYPO3 поиске index_search и, например, для "ночного" перекэширования статических страниц сайта.
Цитата:
Features an API that other extensions can plug into. Example of this is “indexed_search” which uses crawler to index content defined by its Indexing Configurations. Other extensions supporting it are “staticpub” (publishing to static pages) or “cachemgm” (allows recaching of pages).
|
Посмотрите - может быть вам удасться использовать его для наполнения базы Sphinx.
2. Есть
mnogosearch - там эта проблема тоже как-то решена.
3. Еще пришла в голову идея - есть сконфигурировать шаблон так, что при определенном значении type=XYZ на страницу выводится только контент, без лишнего HTML кода (заголовков, меню и т.п.), то можно пробежаться по всему дереву страниц и сложить результат в какую нибудь табличку. Так можно получить корректный контент и в подходящей форме для Sphinx.