обработка событий. возможно ли такое?? а также парсинг Pdf.

АНТ0Н · 30.03.2006, 12:01

Всем привет,

Проблема такая. Написал екстеншен. Один из его функционалов - это загрузка PDF-файлов. Опускаем подробности и внимание вопрос! Как лучше всего организовать индексацию для поиска? То есть потом в публичной части будет возможность поиска по этим файлам. И понятно что контент (частично) файлов надо загнать в какую либо таблицу. Как это лучше сделать? Я вижу это как например перехват событий что то наподобие onCreate(); (c TYPO3 не сильно знаком, говорю на языке других систем

).

Более подробно мой вопрос разбивается на ряд мелких:

1) Какой екстеншен (существует ли) парсит PDF-файл?
2) Как организовать индексацию? //на каком этапе
3) Как вообще обратиться к файлам (средствами TYPO3)? Ну что то типа класса CFile();

Огромная просьба. Даже если решение моей проблемы просто (может есть екстеншен такой), то все равно объяснить п.п. 1-3 на будущее так сказать.

Заранее спасибо.

Valery Romanchev · 30.03.2006, 12:23

Indexed search парсит внешние файлы.
И вопросы индексации там как-то решаются.
Для TYPO3 4.0 есть новая версия индексирующего поиска

Вам надо смотреть ее в CVS http://wiki.typo3.org/index.php/Tabl...ents_%28CVS%29

И смотреть dev list - там наверняка эти вопросы обсуждались

Еще есть DAM - там точно решены впоросы индексации файла после добавления (насчет парсинга PDF и индексации текста - не знаю)

Про DAM - читать соответсвующий лист рассылки.

На www.ncai.org у меня около 1000 PDF файлов.
Причем большинство подцепляются через экстеншен.
Для этого экстеншена я делал патч файлового браузера, чтобы позволить заргузку файлов.

Вывод я делал в Select Pro http://ncai.org/index.php?id=105&selectpro_resid=33

Пока задача парсинга и индексации этих файлов - не стоит.
Indexed Search у меня их не парсит - хотя в принципе это было бы хорошо.

АНТ0Н · 30.03.2006, 12:29

2Valery Romanchev
И на этом спасибо

// 4.0 пока не надо )

Дылгеров Ц.В. · 31.03.2006, 07:28

Нашел в списке рассылки

Цитата:

Message: 8
Date: Tue, 21 Mar 2006 09:08:37 +0200
From: Dmitry Dulepov <typo3@fm-world.ru>
Subject: Re: [TYPO3] new extension: templavoila and pdf-generator
integration
To: typo3-english@lists.netfielders.de
Message-ID:
<mailman.1.1142924917.22201.typo3-english@lists.netfielders.de>
Content-Type: text/plain; charset=KOI8-R

Hi!

Jens Ellerbrock wrote:
> I made a new extension (tv_pdfgen) that finally allows easy integration
> of the pdf_generator and templavoila. This is acomplished by generating
> a new render type (just like the print version) that is mapped to the
> pdf_generator page. Documentation and a short tutorial is included.
>
> See http://typo3.org/extensions/reposito..._pdfgen/1.0.0/
>
> Comments are welcome.

You are XCLASSing pi1. Potential conflict with other XCLASSes. Any way
to avoid XCLASSing?

Dmitry.
--
"It is our choices, that show what we truly are,
far more than our abilities." (A.P.W.B.D.)

АНТ0Н · 31.03.2006, 11:45

Цитата:

Сообщение от дылгеров ц.в.

нашел в списке рассылки

спасибо. на будущее действительно мощная штука, но сейчас она мне бесполезна

так как надо в уже существующих файлах осуществлять поиск...

Pavel Antonov · 31.03.2006, 14:10

Цитата:

Сообщение от АНТ0Н

2Valery Romanchev
И на этом спасибо

Если не устраивает вариант с индексным поиском и DAM, то не понятно что нужно?

АНТ0Н · 31.03.2006, 15:02

Цитата:

Сообщение от Pavel Antonov

Если не устраивает вариант с индексным поиском и DAM, то не понятно что нужно?

Я не силен пока в TYPO3, может это и нельзя сделать. Может я рядом хожу, может туплю (простите в таком случае).

Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска.

Как бы сделал я в другой системе:
Просто создал бы таблицу (№1) файлов, где хранил бы имя (путь) файла и его уникальный идент-р. Может быть еще что то, но это неважно.
Потом, когда загружаю PDFку я ее сразу же парсю и загоняю контент PDF-файла в другую таблицу (№2), где просто хранил бы его содержимое и файл которому оно (содержание) соответствует.

Потом, при поиске, как все происходило бы: я бы выдернул айдишники файлов из таблицы №2, и выдернул бы соответствующие файлы из таблицы №1 ВСЕ!!!!

Как этот чертов алгоритм организовать в ТИПО3???

Pavel Antonov · 31.03.2006, 16:09

Цитата:

Сообщение от АНТ0Н

Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска.

Ведь дали же четкий ответ - Indexed Search это делает! Что еще надо?

Valery Romanchev · 31.03.2006, 17:57

Цитата:

Ведь дали же четкий ответ - Indexed Search это делает! Что еще надо?

Кстати, интересно, а можно в TCA прописать событие?
То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки.
Я такого не встречал пока.

Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension).

Pavel Antonov · 31.03.2006, 18:45

Цитата:

Сообщение от Valery Romanchev

Кстати, интересно, а можно в TCA прописать событие?
То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки.
Я такого не встречал пока.

Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension).

Делается без проблем с помошью хука в tcemain. Можно и на предобработку данных (подмена данных до сохранения в базу), так и после (гарантированно данные сохранены в базу). Сложности с браузером ни к чему...

Только зачем? Задача же в индексирование того что показывается на сайте? Тогда индексировать нужно именно ответы сервера - сгенерированные страницы, как и делает Indexed Search....

30.03.2006, 12:01	#1
АНТ0Н Новенький Регистрация: 19.03.2006 Адрес: Novosibirsk, Academgorodok Сообщений: 24	обработка событий. возможно ли такое?? а также парсинг Pdf. Всем привет, Проблема такая. Написал екстеншен. Один из его функционалов - это загрузка PDF-файлов. Опускаем подробности и внимание вопрос! Как лучше всего организовать индексацию для поиска? То есть потом в публичной части будет возможность поиска по этим файлам. И понятно что контент (частично) файлов надо загнать в какую либо таблицу. Как это лучше сделать? Я вижу это как например перехват событий что то наподобие onCreate(); (c TYPO3 не сильно знаком, говорю на языке других систем ). Более подробно мой вопрос разбивается на ряд мелких: 1) Какой екстеншен (существует ли) парсит PDF-файл? 2) Как организовать индексацию? //на каком этапе 3) Как вообще обратиться к файлам (средствами TYPO3)? Ну что то типа класса CFile(); Огромная просьба. Даже если решение моей проблемы просто (может есть екстеншен такой), то все равно объяснить п.п. 1-3 на будущее так сказать. Заранее спасибо. __________________ Codito ergo sum "I code, therefore I am"

30.03.2006, 12:23	#2
Valery Romanchev Administrator Регистрация: 23.08.2003 Адрес: Moscow, Russia Сообщений: 1,926	Indexed search парсит внешние файлы. И вопросы индексации там как-то решаются. Для TYPO3 4.0 есть новая версия индексирующего поиска Вам надо смотреть ее в CVS http://wiki.typo3.org/index.php/Tabl...ents_%28CVS%29 И смотреть dev list - там наверняка эти вопросы обсуждались Еще есть DAM - там точно решены впоросы индексации файла после добавления (насчет парсинга PDF и индексации текста - не знаю) Про DAM - читать соответсвующий лист рассылки. На www.ncai.org у меня около 1000 PDF файлов. Причем большинство подцепляются через экстеншен. Для этого экстеншена я делал патч файлового браузера, чтобы позволить заргузку файлов. Вывод я делал в Select Pro http://ncai.org/index.php?id=105&selectpro_resid=33 Пока задача парсинга и индексации этих файлов - не стоит. Indexed Search у меня их не парсит - хотя в принципе это было бы хорошо. __________________ Веб-студия ТТЛАБ www.ttlab.ru Последний раз редактировалось Valery Romanchev; 30.03.2006 в 12:33

30.03.2006, 12:29	#3
АНТ0Н Новенький Регистрация: 19.03.2006 Адрес: Novosibirsk, Academgorodok Сообщений: 24	2Valery Romanchev И на этом спасибо // 4.0 пока не надо ) __________________ Codito ergo sum "I code, therefore I am"