Просмотр полной версии : обработка событий. возможно ли такое?? а также парсинг Pdf.
Всем привет,
Проблема такая. Написал екстеншен. Один из его функционалов - это загрузка PDF-файлов. Опускаем подробности и внимание вопрос! Как лучше всего организовать индексацию для поиска? То есть потом в публичной части будет возможность поиска по этим файлам. И понятно что контент (частично) файлов надо загнать в какую либо таблицу. Как это лучше сделать? Я вижу это как например перехват событий что то наподобие onCreate(); (c TYPO3 не сильно знаком, говорю на языке других систем :)).
Более подробно мой вопрос разбивается на ряд мелких:
1) Какой екстеншен (существует ли) парсит PDF-файл?
2) Как организовать индексацию? //на каком этапе
3) Как вообще обратиться к файлам (средствами TYPO3)? Ну что то типа класса CFile();
Огромная просьба. Даже если решение моей проблемы просто (может есть екстеншен такой), то все равно объяснить п.п. 1-3 на будущее так сказать.
Заранее спасибо.
Valery Romanchev
30.03.2006, 12:23
Indexed search парсит внешние файлы.
И вопросы индексации там как-то решаются.
Для TYPO3 4.0 есть новая версия индексирующего поиска
Вам надо смотреть ее в CVS http://wiki.typo3.org/index.php/Table_of_Contents_%28CVS%29
И смотреть dev list - там наверняка эти вопросы обсуждались
Еще есть DAM - там точно решены впоросы индексации файла после добавления (насчет парсинга PDF и индексации текста - не знаю)
Про DAM - читать соответсвующий лист рассылки.
На www.ncai.org (http://www.ncai.org) у меня около 1000 PDF файлов.
Причем большинство подцепляются через экстеншен.
Для этого экстеншена я делал патч файлового браузера, чтобы позволить заргузку файлов.
Вывод я делал в Select Pro http://ncai.org/index.php?id=105&selectpro_resid=33
Пока задача парсинга и индексации этих файлов - не стоит.
Indexed Search у меня их не парсит - хотя в принципе это было бы хорошо.
2Valery Romanchev
И на этом спасибо :)
// 4.0 пока не надо )
Дылгеров Ц.В.
31.03.2006, 07:28
Нашел в списке рассылки
Message: 8
Date: Tue, 21 Mar 2006 09:08:37 +0200
From: Dmitry Dulepov <typo3@fm-world.ru>
Subject: Re: [TYPO3] new extension: templavoila and pdf-generator
integration
To: typo3-english@lists.netfielders.de
Message-ID:
<mailman.1.1142924917.22201.typo3-english@lists.netfielders.de>
Content-Type: text/plain; charset=KOI8-R
Hi!
Jens Ellerbrock wrote:
> I made a new extension (tv_pdfgen) that finally allows easy integration
> of the pdf_generator and templavoila. This is acomplished by generating
> a new render type (just like the print version) that is mapped to the
> pdf_generator page. Documentation and a short tutorial is included.
>
> See http://typo3.org/extensions/repository/search/tv_pdfgen/1.0.0/
>
> Comments are welcome.
You are XCLASSing pi1. Potential conflict with other XCLASSes. Any way
to avoid XCLASSing?
Dmitry.
--
"It is our choices, that show what we truly are,
far more than our abilities." (A.P.W.B.D.)
нашел в списке рассылки
спасибо. на будущее действительно мощная штука, но сейчас она мне бесполезна :( так как надо в уже существующих файлах осуществлять поиск...
Pavel Antonov
31.03.2006, 14:10
2Valery Romanchev
И на этом спасибо :)
Если не устраивает вариант с индексным поиском и DAM, то не понятно что нужно?
Если не устраивает вариант с индексным поиском и DAM, то не понятно что нужно?
Я не силен пока в TYPO3, может это и нельзя сделать. Может я рядом хожу, может туплю (простите в таком случае).
Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска.
Как бы сделал я в другой системе:
Просто создал бы таблицу (№1) файлов, где хранил бы имя (путь) файла и его уникальный идент-р. Может быть еще что то, но это неважно.
Потом, когда загружаю PDFку я ее сразу же парсю и загоняю контент PDF-файла в другую таблицу (№2), где просто хранил бы его содержимое и файл которому оно (содержание) соответствует.
Потом, при поиске, как все происходило бы: я бы выдернул айдишники файлов из таблицы №2, и выдернул бы соответствующие файлы из таблицы №1 ВСЕ!!!!
Как этот чертов алгоритм организовать в ТИПО3???
Pavel Antonov
31.03.2006, 16:09
Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска.
Ведь дали же четкий ответ - Indexed Search это делает! Что еще надо?
Valery Romanchev
31.03.2006, 17:57
Ведь дали же четкий ответ - Indexed Search это делает! Что еще надо? Кстати, интересно, а можно в TCA прописать событие?
То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки.
Я такого не встречал пока.
Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension).
Pavel Antonov
31.03.2006, 18:45
Кстати, интересно, а можно в TCA прописать событие?
То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки.
Я такого не встречал пока.
Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension).
Делается без проблем с помошью хука в tcemain. Можно и на предобработку данных (подмена данных до сохранения в базу), так и после (гарантированно данные сохранены в базу). Сложности с браузером ни к чему...
Только зачем? Задача же в индексирование того что показывается на сайте? Тогда индексировать нужно именно ответы сервера - сгенерированные страницы, как и делает Indexed Search....
Работает на vBulletin® версия 3.8.1. Copyright ©2000-2025, Jelsoft Enterprises Ltd. Перевод: zCarot