![]()  | 
	Форум больше не используется. Присоединяйтесь к каналу #community-ru в Slack for TYPO3 community | 
| 
			
			 | 
		#1 | 
| 
			
			 Новенький 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 
			
			Всем привет, 
		
		
		
		
		
		
			Проблема такая. Написал екстеншен. Один из его функционалов - это загрузка PDF-файлов. Опускаем подробности и внимание вопрос! Как лучше всего организовать индексацию для поиска? То есть потом в публичной части будет возможность поиска по этим файлам. И понятно что контент (частично) файлов надо загнать в какую либо таблицу. Как это лучше сделать? Я вижу это как например перехват событий что то наподобие onCreate(); (c TYPO3 не сильно знаком, говорю на языке других систем  ).Более подробно мой вопрос разбивается на ряд мелких: 1) Какой екстеншен (существует ли) парсит PDF-файл? 2) Как организовать индексацию? //на каком этапе 3) Как вообще обратиться к файлам (средствами TYPO3)? Ну что то типа класса CFile(); Огромная просьба. Даже если решение моей проблемы просто (может есть екстеншен такой), то все равно объяснить п.п. 1-3 на будущее так сказать. Заранее спасибо. 
				__________________ 
		
		
		
		
	Codito ergo sum "I code, therefore I am"  | 
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#2 | 
| 
			
			 Administrator 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 
			
			Indexed search парсит внешние файлы. 
		
		
		
		
		
		
			
		
		
		
		
		
			И вопросы индексации там как-то решаются. Для TYPO3 4.0 есть новая версия индексирующего поиска Вам надо смотреть ее в CVS http://wiki.typo3.org/index.php/Tabl...ents_%28CVS%29 И смотреть dev list - там наверняка эти вопросы обсуждались Еще есть DAM - там точно решены впоросы индексации файла после добавления (насчет парсинга PDF и индексации текста - не знаю) Про DAM - читать соответсвующий лист рассылки. На www.ncai.org у меня около 1000 PDF файлов. Причем большинство подцепляются через экстеншен. Для этого экстеншена я делал патч файлового браузера, чтобы позволить заргузку файлов. Вывод я делал в Select Pro http://ncai.org/index.php?id=105&selectpro_resid=33 Пока задача парсинга и индексации этих файлов - не стоит. Indexed Search у меня их не парсит - хотя в принципе это было бы хорошо. Последний раз редактировалось Valery Romanchev; 30.03.2006 в 12:33  | 
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#3 | 
| 
			
			 Новенький 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 
			
			2Valery Romanchev  
		
		
		
		
		
		
			И на этом спасибо ![]() // 4.0 пока не надо ) 
				__________________ 
		
		
		
		
	Codito ergo sum "I code, therefore I am"  | 
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#4 | |
| 
			
			 Senior Member 
			
			
			
			
	 | 
	
	
	
		
		
			
			 
			
			Нашел в списке рассылки  
		
		
		
		
		
		
		
	Цитата: 
	
  | 
|
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#5 | |
| 
			
			 Новенький 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 Цитата: 
	
   так как надо в уже существующих файлах осуществлять поиск...
		
				__________________ 
		
		
		
		
	Codito ergo sum "I code, therefore I am"  | 
|
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#6 | |
| 
			
			 Senior Member 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 Цитата: 
	
  | 
|
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#7 | |
| 
			
			 Новенький 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 Цитата: 
	
 Так вот, PDF-файл загружают. И по хорошему при загрузке его (точнее его содержание) надо проиндексировать для поиска. Как бы сделал я в другой системе: Просто создал бы таблицу (№1) файлов, где хранил бы имя (путь) файла и его уникальный идент-р. Может быть еще что то, но это неважно. Потом, когда загружаю PDFку я ее сразу же парсю и загоняю контент PDF-файла в другую таблицу (№2), где просто хранил бы его содержимое и файл которому оно (содержание) соответствует. Потом, при поиске, как все происходило бы: я бы выдернул айдишники файлов из таблицы №2, и выдернул бы соответствующие файлы из таблицы №1 ВСЕ!!!! Как этот чертов алгоритм организовать в ТИПО3??? 
				__________________ 
		
		
		
		
	Codito ergo sum "I code, therefore I am"  | 
|
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#8 | |
| 
			
			 Senior Member 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 Цитата: 
	
  | 
|
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#9 | |
| 
			
			 Administrator 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 Цитата: 
	
 То есть, мы загрузили файл в uploads/my_extension - и вызываем функцию для его обработки. Я такого не встречал пока. Если не в TCA - то понятно, что надо патчить - файловый браузер (если хранить пути к файлу и не загружать файл в uploads/my_extension). Последний раз редактировалось Valery Romanchev; 31.03.2006 в 18:00  | 
|
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 | 
| 
			
			 | 
		#10 | |
| 
			
			 Senior Member 
			
			
			
				
			
			
	 | 
	
	
	
		
		
			
			 Цитата: 
	
 Только зачем? Задача же в индексирование того что показывается на сайте? Тогда индексировать нужно именно ответы сервера - сгенерированные страницы, как и делает Indexed Search....  | 
|
| 
		 | 
	
	
	
		
		
		
		
			 
		
		
		
		
		
		
		
			
		
		
		
	 |