Russian TYPO3 community

Russian TYPO3 community (http://forum.typo3.ru/index.php)
-   Общие вопросы (http://forum.typo3.ru/forumdisplay.php?f=12)
-   -   Sphinx - поисковый движок с учетом русской морфологии (http://forum.typo3.ru/showthread.php?t=6207)

Valery Romanchev 28.04.2008 01:40

Sphinx - поисковый движок с учетом русской морфологии
 
http://sphinxsearch.com/ - есть вот такое чудо
сравнение с другими вариантами
http://www.jvetrau.com/2007/10/18/ob...re-tehnologiy/
обсуждение на хабре http://habrahabr.ru/blog/webdev/40473.html

Пишите, если кому интересна интеграция с TYPO3 (видимо можно сделать что-то типа того, что Дулепов сделал для monogosearch)
и готовы ставить\тестить\раскапывать эту тему

Какие вещи интересны:
  • обновленные страницы и новости сразу после обновления добавлять в быстрый индекс, а потом (ночью) переиндексировать все
  • конфигурации для tt_news (с возможностью выбора где искать - в новостях или на сайте)
  • есть ли у Sphinx учет <noindex> или тегов, указывающих какие части страницы индексировать
для vBulletin - http://www.vbulletin.org/forum/showp...&postcount=387

Valery Romanchev 07.05.2008 22:52

как ни странно, эту тему почти синхронно стали обсуждать в dev листе

http://support.typo3.org/index.php?id=17&tx_nntpreader_pi1[nid]=2&tx_nntpreader_pi1[mid]=340607&cHash=d1d878d7d7

советуют не парится и ждать пока сделают нормальным index_search (однако даже нормальный indexed_search будет искать в 1000 страниц за 4 секунды, что в разы хуже скорости поиска в Сфинксе на тех же смешных объемах данных)

Цитата:

> What do you think of Sphinx as indexed_search replacement?

nothing. Seriously, just wait for the first 4.3 patches after T3DD ...
something's cooking =)

Stucki and me are working on two ends to improve the speed of
indexed_search and TYPO3 as a whole which should be noticeable in many
cases.


Ingo

--
Ingo Renner
TYPO3 Core Developer, Release Manager TYPO3 4.2
Цитата:

I tested Stucki's patches and fulltext is twice as fast as the current
implementation. I did that also by using xdebug/KCachegrind and spotted
the last bottleneck for indexed_search. tslib_content->getTreeList get
called about 2500 times when searching for a single word with about 100
results on a site with about 1000 pages in the index.

I'm going to cache the result of getTreeList in a new table so that
these (recursive) calls aren't necessary anymore. Other extension also
make heavy use of getTreeList through pibase so that this should result
in an overall speed gain on many sites...


Ingo

--
Ingo Renner
TYPO3 Core Developer, Release Manager TYPO3 4.2

Valery Romanchev 08.05.2008 11:39

Наиболее интересный вопрос - как прикручивать Сфинкс для сайтов с TemplaVoila
Идея такая:
  • написать пред-запросы, которые помечают записи tt_content, которые поцеплены в TV (написать условия, которые проверяют есть ли uid записи в соответствующем XML)
  • написать запросы по индексированию этих помеченных tt_content для всех типов (включая FCE)

maaboo 11.08.2008 12:58

Ну что - есть подвиги в этой области?

Valery Romanchev 11.08.2008 20:06

Цитата:

Сообщение от maaboo (Сообщение 20813)
Ну что - есть подвиги в этой области?

насчет сфинкса - задача перестала быть актуальной для меня
насчет скорости индексированного поиска - не известно, но я думаю что к концу осени вполне могут сделать

maaboo 11.08.2008 20:13

То есть видимо теперь уже и не париться.. :-)

Таки я и не понял - а что с русской морфологией у индексированного?


Часовой пояс GMT +4, время: 17:07.

Работает на vBulletin® версия 3.8.1.
Copyright ©2000 - 2021, Jelsoft Enterprises Ltd.
Перевод: zCarot