Russian TYPO3 community Форум больше не используется. Присоединяйтесь к каналу #community-ru в Slack for TYPO3 community  

Вернуться   Russian TYPO3 community > Обсуждение общих технических вопросов > Общие вопросы

Ответ
 
Опции темы Опции просмотра
Старый 16.06.2006, 17:23   #1
San
Новенький
 
Регистрация: 04.10.2005
Сообщений: 15
Question поиск в содержимом файла

На станице есть обычные (не DAM) файловые ссылки на документы в формате doc, rtf, xls

cms: typo3 v3.8.0
indexed_search v2.1.3

В шаблоне прописано:
page.config.index_enable = 1

В настройке экстеншена прописаны правильные пути до программ: catdoc, xlhtml, unrtf. Сами программы установлены.

Сам по себе поиск работает, т.е. на станицах все находится
Как заставить индексированный поиск искать в содержимом файлов?
San вне форума   Ответить с цитированием
Старый 22.06.2006, 12:07   #2
San
Новенький
 
Регистрация: 04.10.2005
Сообщений: 15
Exclamation

И в ответ тишина...
Неужели никому не приходилось индексировать External Documents???
San вне форума   Ответить с цитированием
Старый 22.06.2006, 12:55   #3
Дылгеров Ц.В.
Senior Member
 
Регистрация: 14.11.2005
Адрес: Улан-Удэ
Сообщений: 158
Отправить сообщение для Дылгеров Ц.В. с помощью ICQ
По умолчанию

Technical Details смотрели?
Дылгеров Ц.В. вне форума   Ответить с цитированием
Старый 22.06.2006, 14:28   #4
San
Новенький
 
Регистрация: 04.10.2005
Сообщений: 15
По умолчанию

извиняюсь за невежество, но не понял где смотреть

Еще информация: в модуле "Индексация" вкладка List:External documents у меня нет ни одной записи.
San вне форума   Ответить с цитированием
Старый 23.06.2006, 07:12   #5
Дылгеров Ц.В.
Senior Member
 
Регистрация: 14.11.2005
Адрес: Улан-Удэ
Сообщений: 158
Отправить сообщение для Дылгеров Ц.В. с помощью ICQ
По умолчанию

Цитата:
Сообщение от San
извиняюсь за невежество, но не понял где смотреть

Еще информация: в модуле "Индексация" вкладка List:External documents у меня нет ни одной записи.
Инфо - ваша страница - Индексный поиск - Technical Details

В руководстве по indexed search описывается как просматривать результаты анализа страниц

External documents не настраивал - просто советую глянуть на всяк случай
Дылгеров Ц.В. вне форума   Ответить с цитированием
Старый 23.06.2006, 16:59   #6
San
Новенький
 
Регистрация: 04.10.2005
Сообщений: 15
По умолчанию

Посмотрел, ничего интересного не увидел. Понятно только, что индексируется исключительно сама страница, а в файлах индексирование не производится. Непонятно только почему? Может это включать где-то нужно с помощью typoscript?
Гуру! Отзовитесь! Неужели никому не приходилось делать хранилища документов с поиском?

p.s. Включал Debug - понятнее не стало.
San вне форума   Ответить с цитированием
Старый 23.06.2006, 21:02   #7
void
Senior Member
 
Аватар для void
 
Регистрация: 14.03.2006
Адрес: Russia, Penza
Сообщений: 1,504
Отправить сообщение для void с помощью ICQ
По умолчанию

http://typo3.biz/showthread.php?t=1483

Цитата:
Код:
config {
    index_enable = 1         # for pages
    index_externals = 1     # for documents
    no_cache = 0
}
__________________
TYPO3 FAQ
void вне форума   Ответить с цитированием
Старый 26.06.2006, 11:44   #8
San
Новенький
 
Регистрация: 04.10.2005
Сообщений: 15
Question

Цитата:
Сообщение от void
огромное спасибо!
помог index_externals = 1
Все очевидно, но где об этом узнать? Документация с indexed_search идет в формате sxw. В Html просто не нашел нигде. Придется видимо Open office ставить, чтобы доку читать

Успешно наступил на следующие грабли:
xls - индексируется на ура
rtf и doc - выдают кракозябры вида Î&#xe8...
Ясно, что неправильно определяется кодировка
unrtf - выдает результат в ansi, а xlhtml и catdoc - сразу в utf-8.
Неужели придется править код? Как-то не хочется. Может есть более простое решение?
San вне форума   Ответить с цитированием
Старый 27.06.2006, 14:50   #9
San
Новенький
 
Регистрация: 04.10.2005
Сообщений: 15
Cool

Еще поковырялся, выясняется следующее:
1. Документы DOC, конвертятся утилитой catdoc в текст (кодировка utf-8). Причем некоторые документы конвертятся (и соответственно идндексируются) нормально, а некоторые конвертятся в кракозябры. В чем дело - непонятно
2. Документы XLS, конвертятся утилитой xlhtml в html. Кодировка utf-8, что и указывается в charset. Тут все хорошо, и конвертация и индексирования проходят легко и безболезненно.
3. Документы RTF. Самый интересный случай. Конвертятся утилитой unrtf в html, charset не указан. Правда в комментарии указано, "document uses ANSI character set". Если открыть такой html в IE, то русский текст читаем в кодировках "Кирилица (windows)", "Кирилица (ISO)", "Кирилица (KOI8-R)". При индексировании же такого html русский текст превращается в кракозябры вида Î&#xe8... Есть у меня подозрение, неправильно отрабатывает функция convertHTMLToUtf8 из class.indexer.php , т.к. она пытается определить кодировку по charset, а его в этом html нет. Пытался принудительно указывать в теле функции исходную кодировку равной iso-8859, windows-1251, koi8-r - в результате получил снова кракозябры.

Ниже привожу результат конвертации простого RTF содержащего текст "Это документ в формате RTF" в html. Может кто-нибудь подскажет в какой он кодировке?

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<!-- Translation from RTF performed by UnRTF, version 0.20.1 -->
<!-- document uses ANSI character set -->
<!-- font table contains 9 fonts total -->
<title>&Yacute;&ograve;&icirc; &auml;&icirc;&ecirc;&oacute;&igrave;&aring;&iacute ;&ograve; &acirc; &ocirc;&icirc;&eth;&igrave;&agrave;&ograve;&ari ng; RTF</title>
<!-- author: San-->
<!-- creation date: 27 June 2006 15:08 -->
<!-- revision date: 27 June 2006 15:08 -->
<!-- total pages: 1 -->
<!-- total words: 4 -->
<!-- total chars: 23 -->
</head>
<body><font size=3></font><font size=3>&Yacute;&ograve;&icirc; &auml;&icirc;&ecirc;&oacute;&igrave;&aring;&iacute ;&ograve; &acirc; &ocirc;&icirc;&eth;&igrave;&agrave;&ograve;&ari ng; </font><font size=3></font><font size=3>RTF</font><font size=3></font><font size=3><br>
</font><font size=3></font></body>
</html>

Остаюсь пока в недоумении
San вне форума   Ответить с цитированием
Ответ

Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB code is Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +4, время: 11:44.


Работает на vBulletin® версия 3.8.1.
Copyright ©2000 - 2021, Jelsoft Enterprises Ltd.
Перевод: zCarot

Хостинг и техническая поддержка: TYPO3 Лаборатория