Вход

Просмотр полной версии : Sphinx - поисковый движок с учетом русской морфологии


Valery Romanchev
28.04.2008, 01:40
http://sphinxsearch.com/ - есть вот такое чудо
сравнение с другими вариантами
http://www.jvetrau.com/2007/10/18/obosnovanie-resheniy-ispolzovanie-metrik-pri-vyibore-tehnologiy/
обсуждение на хабре http://habrahabr.ru/blog/webdev/40473.html

Пишите, если кому интересна интеграция с TYPO3 (видимо можно сделать что-то типа того, что Дулепов сделал для monogosearch)
и готовы ставить\тестить\раскапывать эту тему

Какие вещи интересны:


обновленные страницы и новости сразу после обновления добавлять в быстрый индекс, а потом (ночью) переиндексировать все
конфигурации для tt_news (с возможностью выбора где искать - в новостях или на сайте)
есть ли у Sphinx учет <noindex> или тегов, указывающих какие части страницы индексировать

для vBulletin - http://www.vbulletin.org/forum/showpost.php?p=1283359&postcount=387

Valery Romanchev
07.05.2008, 22:52
как ни странно, эту тему почти синхронно стали обсуждать в dev листе

http://support.typo3.org/index.php?id=17&tx_nntpreader_pi1[nid]=2&tx_nntpreader_pi1[mid]=340607&cHash=d1d878d7d7 (http://support.typo3.org/index.php?id=17&tx_nntpreader_pi1%5Bnid%5D=2&tx_nntpreader_pi1%5Bmid%5D=340607&cHash=d1d878d7d7)

советуют не парится и ждать пока сделают нормальным index_search (однако даже нормальный indexed_search будет искать в 1000 страниц за 4 секунды, что в разы хуже скорости поиска в Сфинксе на тех же смешных объемах данных)

> What do you think of Sphinx as indexed_search replacement?

nothing. Seriously, just wait for the first 4.3 patches after T3DD ...
something's cooking =)

Stucki and me are working on two ends to improve the speed of
indexed_search and TYPO3 as a whole which should be noticeable in many
cases.


Ingo

--
Ingo Renner
TYPO3 Core Developer, Release Manager TYPO3 4.2 I tested Stucki's patches and fulltext is twice as fast as the current
implementation. I did that also by using xdebug/KCachegrind and spotted
the last bottleneck for indexed_search. tslib_content->getTreeList get
called about 2500 times when searching for a single word with about 100
results on a site with about 1000 pages in the index.

I'm going to cache the result of getTreeList in a new table so that
these (recursive) calls aren't necessary anymore. Other extension also
make heavy use of getTreeList through pibase so that this should result
in an overall speed gain on many sites...


Ingo

--
Ingo Renner
TYPO3 Core Developer, Release Manager TYPO3 4.2

Valery Romanchev
08.05.2008, 11:39
Наиболее интересный вопрос - как прикручивать Сфинкс для сайтов с TemplaVoila
Идея такая:


написать пред-запросы, которые помечают записи tt_content, которые поцеплены в TV (написать условия, которые проверяют есть ли uid записи в соответствующем XML)
написать запросы по индексированию этих помеченных tt_content для всех типов (включая FCE)

maaboo
11.08.2008, 12:58
Ну что - есть подвиги в этой области?

Valery Romanchev
11.08.2008, 20:06
Ну что - есть подвиги в этой области?

насчет сфинкса - задача перестала быть актуальной для меня
насчет скорости индексированного поиска - не известно, но я думаю что к концу осени вполне могут сделать

maaboo
11.08.2008, 20:13
То есть видимо теперь уже и не париться.. :-)

Таки я и не понял - а что с русской морфологией у индексированного?