В свое время писал скрипт, который переносил сайт. Это был паук, который обходил все страницы переносимого сайта. Предварительно я расставил в html коде отметки начала и конца значимого текста путем добавления их в код старого движка. Это было нужно чтобы отделить текст от статичного меню, верха и низа, а также чтобы понимать что это текст страниц или новостей. Паук размещал значимый текст в БД Typo3. Как это делалось? В Typo3 есть возможность писать cli-скрипты с использованием API typo3. Там также есть возможность добавлять в любую таблицу записи правильным способом. Особенно это важно для создания дерева сайта (в таблице pages есть поле, которое задает порядковый номер страницы).
К сожалению этот скрипт затерялся.
|