Показать сообщение отдельно
Старый 27.06.2006, 14:50   #9
San
Новенький
 
Регистрация: 04.10.2005
Сообщений: 15
Cool

Еще поковырялся, выясняется следующее:
1. Документы DOC, конвертятся утилитой catdoc в текст (кодировка utf-8). Причем некоторые документы конвертятся (и соответственно идндексируются) нормально, а некоторые конвертятся в кракозябры. В чем дело - непонятно
2. Документы XLS, конвертятся утилитой xlhtml в html. Кодировка utf-8, что и указывается в charset. Тут все хорошо, и конвертация и индексирования проходят легко и безболезненно.
3. Документы RTF. Самый интересный случай. Конвертятся утилитой unrtf в html, charset не указан. Правда в комментарии указано, "document uses ANSI character set". Если открыть такой html в IE, то русский текст читаем в кодировках "Кирилица (windows)", "Кирилица (ISO)", "Кирилица (KOI8-R)". При индексировании же такого html русский текст превращается в кракозябры вида Î&#xe8... Есть у меня подозрение, неправильно отрабатывает функция convertHTMLToUtf8 из class.indexer.php , т.к. она пытается определить кодировку по charset, а его в этом html нет. Пытался принудительно указывать в теле функции исходную кодировку равной iso-8859, windows-1251, koi8-r - в результате получил снова кракозябры.

Ниже привожу результат конвертации простого RTF содержащего текст "Это документ в формате RTF" в html. Может кто-нибудь подскажет в какой он кодировке?

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<!-- Translation from RTF performed by UnRTF, version 0.20.1 -->
<!-- document uses ANSI character set -->
<!-- font table contains 9 fonts total -->
<title>&Yacute;&ograve;&icirc; &auml;&icirc;&ecirc;&oacute;&igrave;&aring;&iacute ;&ograve; &acirc; &ocirc;&icirc;&eth;&igrave;&agrave;&ograve;&ari ng; RTF</title>
<!-- author: San-->
<!-- creation date: 27 June 2006 15:08 -->
<!-- revision date: 27 June 2006 15:08 -->
<!-- total pages: 1 -->
<!-- total words: 4 -->
<!-- total chars: 23 -->
</head>
<body><font size=3></font><font size=3>&Yacute;&ograve;&icirc; &auml;&icirc;&ecirc;&oacute;&igrave;&aring;&iacute ;&ograve; &acirc; &ocirc;&icirc;&eth;&igrave;&agrave;&ograve;&ari ng; </font><font size=3></font><font size=3>RTF</font><font size=3></font><font size=3><br>
</font><font size=3></font></body>
</html>

Остаюсь пока в недоумении
San вне форума   Ответить с цитированием