Форум больше не используется. Присоединяйтесь к каналу #community-ru в Slack for TYPO3 community |
30.03.2006, 12:01 | #1 |
Новенький
|
обработка событий. возможно ли такое?? а также парсинг Pdf.
Всем привет,
Проблема такая. Написал екстеншен. Один из его функционалов - это загрузка PDF-файлов. Опускаем подробности и внимание вопрос! Как лучше всего организовать индексацию для поиска? То есть потом в публичной части будет возможность поиска по этим файлам. И понятно что контент (частично) файлов надо загнать в какую либо таблицу. Как это лучше сделать? Я вижу это как например перехват событий что то наподобие onCreate(); (c TYPO3 не сильно знаком, говорю на языке других систем ). Более подробно мой вопрос разбивается на ряд мелких: 1) Какой екстеншен (существует ли) парсит PDF-файл? 2) Как организовать индексацию? //на каком этапе 3) Как вообще обратиться к файлам (средствами TYPO3)? Ну что то типа класса CFile(); Огромная просьба. Даже если решение моей проблемы просто (может есть екстеншен такой), то все равно объяснить п.п. 1-3 на будущее так сказать. Заранее спасибо.
__________________
Codito ergo sum "I code, therefore I am" |
30.03.2006, 12:23 | #2 |
Administrator
|
Indexed search парсит внешние файлы.
И вопросы индексации там как-то решаются. Для TYPO3 4.0 есть новая версия индексирующего поиска Вам надо смотреть ее в CVS http://wiki.typo3.org/index.php/Tabl...ents_%28CVS%29 И смотреть dev list - там наверняка эти вопросы обсуждались Еще есть DAM - там точно решены впоросы индексации файла после добавления (насчет парсинга PDF и индексации текста - не знаю) Про DAM - читать соответсвующий лист рассылки. На www.ncai.org у меня около 1000 PDF файлов. Причем большинство подцепляются через экстеншен. Для этого экстеншена я делал патч файлового браузера, чтобы позволить заргузку файлов. Вывод я делал в Select Pro http://ncai.org/index.php?id=105&selectpro_resid=33 Пока задача парсинга и индексации этих файлов - не стоит. Indexed Search у меня их не парсит - хотя в принципе это было бы хорошо. Последний раз редактировалось Valery Romanchev; 30.03.2006 в 12:33 |
30.03.2006, 12:29 | #3 |
Новенький
|
2Valery Romanchev
И на этом спасибо // 4.0 пока не надо )
__________________
Codito ergo sum "I code, therefore I am" |
31.03.2006, 07:28 | #4 | |
Senior Member
|
Нашел в списке рассылки
Цитата:
|
|
31.03.2006, 11:45 | #5 | |
Новенький
|
Цитата:
__________________
Codito ergo sum "I code, therefore I am" |
|
31.03.2006, 14:10 | #6 | |
Senior Member
|
Цитата:
|
|
31.03.2006, 15:02 | #7 | |
Новенький
|
Цитата:
Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска. Как бы сделал я в другой системе: Просто создал бы таблицу (№1) файлов, где хранил бы имя (путь) файла и его уникальный идент-р. Может быть еще что то, но это неважно. Потом, когда загружаю PDFку я ее сразу же парсю и загоняю контент PDF-файла в другую таблицу (№2), где просто хранил бы его содержимое и файл которому оно (содержание) соответствует. Потом, при поиске, как все происходило бы: я бы выдернул айдишники файлов из таблицы №2, и выдернул бы соответствующие файлы из таблицы №1 ВСЕ!!!! Как этот чертов алгоритм организовать в ТИПО3???
__________________
Codito ergo sum "I code, therefore I am" |
|
31.03.2006, 16:09 | #8 | |
Senior Member
|
Цитата:
|
|
31.03.2006, 17:57 | #9 | |
Administrator
|
Цитата:
То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки. Я такого не встречал пока. Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension). Последний раз редактировалось Valery Romanchev; 31.03.2006 в 18:00 |
|
31.03.2006, 18:45 | #10 | |
Senior Member
|
Цитата:
Только зачем? Задача же в индексирование того что показывается на сайте? Тогда индексировать нужно именно ответы сервера - сгенерированные страницы, как и делает Indexed Search.... |
|