![]() |
Форум больше не используется. Присоединяйтесь к каналу #community-ru в Slack for TYPO3 community |
![]() |
#9 |
Новенький
Регистрация: 04.10.2005
Сообщений: 15
|
![]()
Еще поковырялся, выясняется следующее:
1. Документы DOC, конвертятся утилитой catdoc в текст (кодировка utf-8). Причем некоторые документы конвертятся (и соответственно идндексируются) нормально, а некоторые конвертятся в кракозябры. В чем дело - непонятно 2. Документы XLS, конвертятся утилитой xlhtml в html. Кодировка utf-8, что и указывается в charset. Тут все хорошо, и конвертация и индексирования проходят легко и безболезненно. 3. Документы RTF. Самый интересный случай. Конвертятся утилитой unrtf в html, charset не указан. Правда в комментарии указано, "document uses ANSI character set". Если открыть такой html в IE, то русский текст читаем в кодировках "Кирилица (windows)", "Кирилица (ISO)", "Кирилица (KOI8-R)". При индексировании же такого html русский текст превращается в кракозябры вида Îè... Есть у меня подозрение, неправильно отрабатывает функция convertHTMLToUtf8 из class.indexer.php , т.к. она пытается определить кодировку по charset, а его в этом html нет. Пытался принудительно указывать в теле функции исходную кодировку равной iso-8859, windows-1251, koi8-r - в результате получил снова кракозябры. Ниже привожу результат конвертации простого RTF содержащего текст "Это документ в формате RTF" в html. Может кто-нибудь подскажет в какой он кодировке? <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <head> <!-- Translation from RTF performed by UnRTF, version 0.20.1 --> <!-- document uses ANSI character set --> <!-- font table contains 9 fonts total --> <title>Ýòî äîêóìåí ;ò â ôîðìàò&ari ng; RTF</title> <!-- author: San--> <!-- creation date: 27 June 2006 15:08 --> <!-- revision date: 27 June 2006 15:08 --> <!-- total pages: 1 --> <!-- total words: 4 --> <!-- total chars: 23 --> </head> <body><font size=3></font><font size=3>Ýòî äîêóìåí ;ò â ôîðìàò&ari ng; </font><font size=3></font><font size=3>RTF</font><font size=3></font><font size=3><br> </font><font size=3></font></body> </html> Остаюсь пока в недоумении ![]() |
![]() |
![]() |