Форум больше не используется. Присоединяйтесь к каналу #community-ru в Slack for TYPO3 community |
16.06.2006, 17:23 | #1 |
Новенький
Регистрация: 04.10.2005
Сообщений: 15
|
поиск в содержимом файла
На станице есть обычные (не DAM) файловые ссылки на документы в формате doc, rtf, xls
cms: typo3 v3.8.0 indexed_search v2.1.3 В шаблоне прописано: page.config.index_enable = 1 В настройке экстеншена прописаны правильные пути до программ: catdoc, xlhtml, unrtf. Сами программы установлены. Сам по себе поиск работает, т.е. на станицах все находится Как заставить индексированный поиск искать в содержимом файлов? |
22.06.2006, 12:07 | #2 |
Новенький
Регистрация: 04.10.2005
Сообщений: 15
|
И в ответ тишина...
Неужели никому не приходилось индексировать External Documents??? |
22.06.2006, 12:55 | #3 |
Senior Member
|
Technical Details смотрели?
|
22.06.2006, 14:28 | #4 |
Новенький
Регистрация: 04.10.2005
Сообщений: 15
|
извиняюсь за невежество, но не понял где смотреть
Еще информация: в модуле "Индексация" вкладка List:External documents у меня нет ни одной записи. |
23.06.2006, 07:12 | #5 | |
Senior Member
|
Цитата:
В руководстве по indexed search описывается как просматривать результаты анализа страниц External documents не настраивал - просто советую глянуть на всяк случай |
|
23.06.2006, 16:59 | #6 |
Новенький
Регистрация: 04.10.2005
Сообщений: 15
|
Посмотрел, ничего интересного не увидел. Понятно только, что индексируется исключительно сама страница, а в файлах индексирование не производится. Непонятно только почему? Может это включать где-то нужно с помощью typoscript?
Гуру! Отзовитесь! Неужели никому не приходилось делать хранилища документов с поиском? p.s. Включал Debug - понятнее не стало. |
23.06.2006, 21:02 | #7 | |
Senior Member
|
http://typo3.biz/showthread.php?t=1483
Цитата:
__________________
TYPO3 FAQ |
|
26.06.2006, 11:44 | #8 | |
Новенький
Регистрация: 04.10.2005
Сообщений: 15
|
Цитата:
помог index_externals = 1 Все очевидно, но где об этом узнать? Документация с indexed_search идет в формате sxw. В Html просто не нашел нигде. Придется видимо Open office ставить, чтобы доку читать Успешно наступил на следующие грабли: xls - индексируется на ура rtf и doc - выдают кракозябры вида Îè... Ясно, что неправильно определяется кодировка unrtf - выдает результат в ansi, а xlhtml и catdoc - сразу в utf-8. Неужели придется править код? Как-то не хочется. Может есть более простое решение? |
|
27.06.2006, 14:50 | #9 |
Новенький
Регистрация: 04.10.2005
Сообщений: 15
|
Еще поковырялся, выясняется следующее:
1. Документы DOC, конвертятся утилитой catdoc в текст (кодировка utf-8). Причем некоторые документы конвертятся (и соответственно идндексируются) нормально, а некоторые конвертятся в кракозябры. В чем дело - непонятно 2. Документы XLS, конвертятся утилитой xlhtml в html. Кодировка utf-8, что и указывается в charset. Тут все хорошо, и конвертация и индексирования проходят легко и безболезненно. 3. Документы RTF. Самый интересный случай. Конвертятся утилитой unrtf в html, charset не указан. Правда в комментарии указано, "document uses ANSI character set". Если открыть такой html в IE, то русский текст читаем в кодировках "Кирилица (windows)", "Кирилица (ISO)", "Кирилица (KOI8-R)". При индексировании же такого html русский текст превращается в кракозябры вида Îè... Есть у меня подозрение, неправильно отрабатывает функция convertHTMLToUtf8 из class.indexer.php , т.к. она пытается определить кодировку по charset, а его в этом html нет. Пытался принудительно указывать в теле функции исходную кодировку равной iso-8859, windows-1251, koi8-r - в результате получил снова кракозябры. Ниже привожу результат конвертации простого RTF содержащего текст "Это документ в формате RTF" в html. Может кто-нибудь подскажет в какой он кодировке? <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <head> <!-- Translation from RTF performed by UnRTF, version 0.20.1 --> <!-- document uses ANSI character set --> <!-- font table contains 9 fonts total --> <title>Ýòî äîêóìåí ;ò â ôîðìàò&ari ng; RTF</title> <!-- author: San--> <!-- creation date: 27 June 2006 15:08 --> <!-- revision date: 27 June 2006 15:08 --> <!-- total pages: 1 --> <!-- total words: 4 --> <!-- total chars: 23 --> </head> <body><font size=3></font><font size=3>Ýòî äîêóìåí ;ò â ôîðìàò&ari ng; </font><font size=3></font><font size=3>RTF</font><font size=3></font><font size=3><br> </font><font size=3></font></body> </html> Остаюсь пока в недоумении |