обработка событий. возможно ли такое?? а также парсинг Pdf. [Архив]

Просмотр полной версии : обработка событий. возможно ли такое?? а также парсинг Pdf.

АНТ0Н

30.03.2006, 12:01

Всем привет,

Проблема такая. Написал екстеншен. Один из его функционалов - это загрузка PDF-файлов. Опускаем подробности и внимание вопрос! Как лучше всего организовать индексацию для поиска? То есть потом в публичной части будет возможность поиска по этим файлам. И понятно что контент (частично) файлов надо загнать в какую либо таблицу. Как это лучше сделать? Я вижу это как например перехват событий что то наподобие onCreate(); (c TYPO3 не сильно знаком, говорю на языке других систем :)).

Более подробно мой вопрос разбивается на ряд мелких:

1) Какой екстеншен (существует ли) парсит PDF-файл?
2) Как организовать индексацию? //на каком этапе
3) Как вообще обратиться к файлам (средствами TYPO3)? Ну что то типа класса CFile();

Огромная просьба. Даже если решение моей проблемы просто (может есть екстеншен такой), то все равно объяснить п.п. 1-3 на будущее так сказать.

Заранее спасибо.

Valery Romanchev

30.03.2006, 12:23

Indexed search парсит внешние файлы.
И вопросы индексации там как-то решаются.
Для TYPO3 4.0 есть новая версия индексирующего поиска

Вам надо смотреть ее в CVS http://wiki.typo3.org/index.php/Table_of_Contents_%28CVS%29

И смотреть dev list - там наверняка эти вопросы обсуждались

Еще есть DAM - там точно решены впоросы индексации файла после добавления (насчет парсинга PDF и индексации текста - не знаю)

Про DAM - читать соответсвующий лист рассылки.

На www.ncai.org (http://www.ncai.org) у меня около 1000 PDF файлов.
Причем большинство подцепляются через экстеншен.
Для этого экстеншена я делал патч файлового браузера, чтобы позволить заргузку файлов.

Вывод я делал в Select Pro http://ncai.org/index.php?id=105&selectpro_resid=33

Пока задача парсинга и индексации этих файлов - не стоит.
Indexed Search у меня их не парсит - хотя в принципе это было бы хорошо.

АНТ0Н

30.03.2006, 12:29

2Valery Romanchev
И на этом спасибо :)

// 4.0 пока не надо )

Дылгеров Ц.В.

31.03.2006, 07:28

Нашел в списке рассылки
Message: 8
Date: Tue, 21 Mar 2006 09:08:37 +0200
From: Dmitry Dulepov <typo3@fm-world.ru>
Subject: Re: [TYPO3] new extension: templavoila and pdf-generator
integration
To: typo3-english@lists.netfielders.de
Message-ID:
<mailman.1.1142924917.22201.typo3-english@lists.netfielders.de>
Content-Type: text/plain; charset=KOI8-R

Hi!

Jens Ellerbrock wrote:
> I made a new extension (tv_pdfgen) that finally allows easy integration
> of the pdf_generator and templavoila. This is acomplished by generating
> a new render type (just like the print version) that is mapped to the
> pdf_generator page. Documentation and a short tutorial is included.
>
> See http://typo3.org/extensions/repository/search/tv_pdfgen/1.0.0/
>
> Comments are welcome.

You are XCLASSing pi1. Potential conflict with other XCLASSes. Any way
to avoid XCLASSing?

Dmitry.
--
"It is our choices, that show what we truly are,
far more than our abilities." (A.P.W.B.D.)

АНТ0Н

31.03.2006, 11:45

нашел в списке рассылки
спасибо. на будущее действительно мощная штука, но сейчас она мне бесполезна :( так как надо в уже существующих файлах осуществлять поиск...

Pavel Antonov

31.03.2006, 14:10

2Valery Romanchev
И на этом спасибо :)

Если не устраивает вариант с индексным поиском и DAM, то не понятно что нужно?

АНТ0Н

31.03.2006, 15:02

Если не устраивает вариант с индексным поиском и DAM, то не понятно что нужно?

Я не силен пока в TYPO3, может это и нельзя сделать. Может я рядом хожу, может туплю (простите в таком случае).

Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска.

Как бы сделал я в другой системе:
Просто создал бы таблицу (№1) файлов, где хранил бы имя (путь) файла и его уникальный идент-р. Может быть еще что то, но это неважно.
Потом, когда загружаю PDFку я ее сразу же парсю и загоняю контент PDF-файла в другую таблицу (№2), где просто хранил бы его содержимое и файл которому оно (содержание) соответствует.

Потом, при поиске, как все происходило бы: я бы выдернул айдишники файлов из таблицы №2, и выдернул бы соответствующие файлы из таблицы №1 ВСЕ!!!!

Как этот чертов алгоритм организовать в ТИПО3???

Pavel Antonov

31.03.2006, 16:09

Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска.

Ведь дали же четкий ответ - Indexed Search это делает! Что еще надо?

Valery Romanchev

31.03.2006, 17:57

Ведь дали же четкий ответ - Indexed Search это делает! Что еще надо? Кстати, интересно, а можно в TCA прописать событие?
То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки.
Я такого не встречал пока.

Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension).

Pavel Antonov

31.03.2006, 18:45

Кстати, интересно, а можно в TCA прописать событие?
То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки.
Я такого не встречал пока.

Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension).
Делается без проблем с помошью хука в tcemain. Можно и на предобработку данных (подмена данных до сохранения в базу), так и после (гарантированно данные сохранены в базу). Сложности с браузером ни к чему...

Только зачем? Задача же в индексирование того что показывается на сайте? Тогда индексировать нужно именно ответы сервера - сгенерированные страницы, как и делает Indexed Search....