Russian TYPO3 community

Russian TYPO3 community (http://forum.typo3.ru/index.php)
-   Общие вопросы (http://forum.typo3.ru/forumdisplay.php?f=12)
-   -   поиск в содержимом файла (http://forum.typo3.ru/showthread.php?t=1517)

San 16.06.2006 17:23

поиск в содержимом файла
 
На станице есть обычные (не DAM) файловые ссылки на документы в формате doc, rtf, xls

cms: typo3 v3.8.0
indexed_search v2.1.3

В шаблоне прописано:
page.config.index_enable = 1

В настройке экстеншена прописаны правильные пути до программ: catdoc, xlhtml, unrtf. Сами программы установлены.

Сам по себе поиск работает, т.е. на станицах все находится
Как заставить индексированный поиск искать в содержимом файлов?

San 22.06.2006 12:07

И в ответ тишина...
Неужели никому не приходилось индексировать External Documents???

Дылгеров Ц.В. 22.06.2006 12:55

Technical Details смотрели?

San 22.06.2006 14:28

извиняюсь за невежество, но не понял где смотреть

Еще информация: в модуле "Индексация" вкладка List:External documents у меня нет ни одной записи.

Дылгеров Ц.В. 23.06.2006 07:12

Цитата:

Сообщение от San
извиняюсь за невежество, но не понял где смотреть

Еще информация: в модуле "Индексация" вкладка List:External documents у меня нет ни одной записи.

Инфо - ваша страница - Индексный поиск - Technical Details

В руководстве по indexed search описывается как просматривать результаты анализа страниц

External documents не настраивал - просто советую глянуть на всяк случай

San 23.06.2006 16:59

Посмотрел, ничего интересного не увидел. Понятно только, что индексируется исключительно сама страница, а в файлах индексирование не производится. Непонятно только почему? :( Может это включать где-то нужно с помощью typoscript?
Гуру! Отзовитесь! Неужели никому не приходилось делать хранилища документов с поиском?

p.s. Включал Debug - понятнее не стало.

void 23.06.2006 21:02

http://typo3.biz/showthread.php?t=1483

Цитата:

Код:

config {
    index_enable = 1        # for pages
    index_externals = 1    # for documents
    no_cache = 0
}



San 26.06.2006 11:44

Цитата:

Сообщение от void

огромное спасибо! :)
помог index_externals = 1
Все очевидно, но где об этом узнать? Документация с indexed_search идет в формате sxw. В Html просто не нашел нигде. Придется видимо Open office ставить, чтобы доку читать :(

Успешно наступил на следующие грабли:
xls - индексируется на ура
rtf и doc - выдают кракозябры вида Î&#xe8...
Ясно, что неправильно определяется кодировка
unrtf - выдает результат в ansi, а xlhtml и catdoc - сразу в utf-8.
Неужели придется править код? Как-то не хочется. Может есть более простое решение?

San 27.06.2006 14:50

Еще поковырялся, выясняется следующее:
1. Документы DOC, конвертятся утилитой catdoc в текст (кодировка utf-8). Причем некоторые документы конвертятся (и соответственно идндексируются) нормально, а некоторые конвертятся в кракозябры. В чем дело - непонятно
2. Документы XLS, конвертятся утилитой xlhtml в html. Кодировка utf-8, что и указывается в charset. Тут все хорошо, и конвертация и индексирования проходят легко и безболезненно.
3. Документы RTF. Самый интересный случай. Конвертятся утилитой unrtf в html, charset не указан. Правда в комментарии указано, "document uses ANSI character set". Если открыть такой html в IE, то русский текст читаем в кодировках "Кирилица (windows)", "Кирилица (ISO)", "Кирилица (KOI8-R)". При индексировании же такого html русский текст превращается в кракозябры вида Î&#xe8... Есть у меня подозрение, неправильно отрабатывает функция convertHTMLToUtf8 из class.indexer.php , т.к. она пытается определить кодировку по charset, а его в этом html нет. Пытался принудительно указывать в теле функции исходную кодировку равной iso-8859, windows-1251, koi8-r - в результате получил снова кракозябры.

Ниже привожу результат конвертации простого RTF содержащего текст "Это документ в формате RTF" в html. Может кто-нибудь подскажет в какой он кодировке?

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<!-- Translation from RTF performed by UnRTF, version 0.20.1 -->
<!-- document uses ANSI character set -->
<!-- font table contains 9 fonts total -->
<title>&Yacute;&ograve;&icirc; &auml;&icirc;&ecirc;&oacute;&igrave;&aring;&iacute ;&ograve; &acirc; &ocirc;&icirc;&eth;&igrave;&agrave;&ograve;&ari ng; RTF</title>
<!-- author: San-->
<!-- creation date: 27 June 2006 15:08 -->
<!-- revision date: 27 June 2006 15:08 -->
<!-- total pages: 1 -->
<!-- total words: 4 -->
<!-- total chars: 23 -->
</head>
<body><font size=3></font><font size=3>&Yacute;&ograve;&icirc; &auml;&icirc;&ecirc;&oacute;&igrave;&aring;&iacute ;&ograve; &acirc; &ocirc;&icirc;&eth;&igrave;&agrave;&ograve;&ari ng; </font><font size=3></font><font size=3>RTF</font><font size=3></font><font size=3><br>
</font><font size=3></font></body>
</html>

Остаюсь пока в недоумении :)


Часовой пояс GMT +4, время: 23:27.

Работает на vBulletin® версия 3.8.1.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot