Russian TYPO3 community

Russian TYPO3 community (http://forum.typo3.ru/index.php)
-   Общие вопросы (http://forum.typo3.ru/forumdisplay.php?f=12)
-   -   Site Crawler (http://forum.typo3.ru/showthread.php?t=1759)

Baltazarr 31.08.2006 15:47

Site Crawler
 
Всем привет, вот решил применить индексирванный поиск на своем проекте: пытаюсь "прокрулить урлы" но ничего не тполучается плюс в колонке выбора "Processing Instructions:" просто пусто - нет ничего...
Кто-нибудь стаклкивался когда-нибудь с такой проблемой?

Дылгеров Ц.В. 01.09.2006 05:45

Цитата:

Сообщение от Baltazarr
Всем привет, вот решил применить индексирванный поиск на своем проекте: пытаюсь "прокрулить урлы" но ничего не тполучается плюс в колонке выбора "Processing Instructions:" просто пусто - нет ничего...
Кто-нибудь стаклкивался когда-нибудь с такой проблемой?

надо установить индексный поиск - Indexed search

Baltazarr 01.09.2006 14:37

Расширение Indexed search стоит

Baltazarr 01.09.2006 15:47

Акей, черт с ним с краулером - у меня итак все индексируется и кешируется нормально. Однако теперь проблема другого сорта - не могу понять как indexed search заставить искать контент на русском языке. Смотрел предыдущие топики по этой теме, вроде ничего не нашёл. Ссылка, куда в первую очередь рекоммендуют пойти, прежде чем послать подальше :) http://typo3.net.ru/viewtopic.php?t=9 тоже не работает... Пробовал и такой метод, предложенный Валерием - напонить массив $convChars русскими буквами в class.indexer.php
Код:

var $convChars=array( \"АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ\", \"абвгдеёжзийклмнопрстуфхцчшщъыьэюя\" );
И опять не помогло

Valery Romanchev 02.09.2006 01:06

Цитата:

Сообщение от Baltazarr
Акей, черт с ним с краулером - у меня итак все индексируется и кешируется нормально. Однако теперь проблема другого сорта - не могу понять как indexed search заставить искать контент на русском языке. Смотрел предыдущие топики по этой теме, вроде ничего не нашёл. Ссылка, куда в первую очередь рекоммендуют пойти, прежде чем послать подальше :) http://typo3.net.ru/viewtopic.php?t=9 тоже не работает... Пробовал и такой метод, предложенный Валерием - напонить массив $convChars русскими буквами в class.indexer.php
Код:

var $convChars=array( \"АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ\", \"абвгдеёжзийклмнопрстуфхцчшщъыьэюя\" );
И опять не помогло

это какая-то старая рекомендация к старой версии
если у Вас сайт в uft8, то все должно работать сразу после установки и без проблем

Baltazarr 04.09.2006 14:47

вы правы, контент на английском языке принимает прекрасно, но вот с русским никак

Valery Romanchev 05.09.2006 01:45

Цитата:

Сообщение от Baltazarr
вы правы, контент на английском языке принимает прекрасно, но вот с русским никак

это очень странно..
сколько раз ставил поиск на 4.0 - всегда хорошо работал

http://www.p2b.ru/indexed-search.html

Baltazarr 05.09.2006 15:56

Я вот вспомнил, что ставил недавно патч Виталия Дутчака "Patch for Indexed_search Extension key ( dvdg_indexedsearch_patch )", хмм может он чем-то повлиял на индексный поиск?

Baltazarr 05.09.2006 16:33

Посмотрел все таблицы, а так же index_fulltext - они заполнены текстами с моего контента, ничего не понимаю - почему же не ищет?..

Baltazarr 05.09.2006 16:39

да, и ещё версия моего индексного поиска 2.1.3

Baltazarr 05.09.2006 17:08

Плюс я ещё заметил в секции "Available Extensions - Grouped by: Category
" в Экст Манагере напротив Плагина Indexed Search Engine стоит запись "Local SL". Никто не знает, что бы это могло означать? (Извиняюсь за поток вопросов.. :))

Baltazarr 06.09.2006 15:53

Я понял, что мой вопрос довольно проблематичен для рассмотрения. Тогда у меня просьба ко всем, кто внедрял на свои проекты индексированный поиск: если кого-нибудь не затруднит, скиньте мне на почту lexinc@mail.ru рабочий indexed_search.t3x экстеншн плиииз..
Просто у меня подозрение, что я сгрузил себе нечто нестандартное что ли...

Baltazarr 07.09.2006 15:15

продвижение
 
И ещё, у меня стоит тайпо версии 4.0.1 в нем оказывается уже есть встренный индексированый поиск Версии 2.9.0! Я снёс фронтенд плагин и поставил этот дефолтовский, однако при поиске слов на русском языке он так же ничего не выводит, а при поиске английских фраз он их находит, но появляются следующие варнинги:
Код:

Warning: Missing argument 3 for tx_indexedsearch::makePointerSelector_link() in C:\www\typo3\typo3\sysext\indexed_search\pi\class.tx_indexedsearch.php on line 1832

Warning: Missing argument 3 for tx_indexedsearch::makePointerSelector_link() in C:\www\typo3\typo3\sysext\indexed_search\pi\class.tx_indexedsearch.php on line 1832


Baltazarr 07.09.2006 19:12

Разобрался, варнинги были из-за расширения indexed_search_templates. Пока снес - варнинги ушли.
И ещё одна занимательная вещь: копирую текст в кодировке 1251 вставляю в текстовое поле страницы - прекрсано его находит.
P.S. В записях новостей ttnews поиск работает без запинки..

Дылгеров Ц.В. 08.09.2006 06:16

заодно краулер можно посмотреть

Baltazarr 08.09.2006 15:00

Снес краулер, т.к. вроде в indexed_search 2.9.0 есть уже встренный, однако при попытке поиска или захода на поисковый пэйдж выдаётся следующе сообщение:
Код:

NO entry in the $TCA-array for the table "index_config". This means that the function enableFields() is called with an invalid table name as argument.

Baltazarr 08.09.2006 16:02

Таак, похоже проблема убита "в лоб"!
1) Убедился, что все настройки локализаци впорядке:

настройки localconf присутствуют:
$TYPO3_CONF_VARS['BE']['forceCharset'] = "utf-8";
$TYPO3_CONF_VARS['SYS']['setDBinit'] = 'SET NAMES utf8;';

В TS-config тоже все прописано:
config {
admPanel=0
index_enable = 1
index_externals = 1
sys_language_uid = 0
forceCharset = utf-8
metaCharset = utf-8
renderCharset = utf-8
language = ru
locale_all = ru_RU.UTF-8
}
}


2) Снес вообще, все что связано с индексным поиском.
3) Отчистил вручную БД от таблиц index_*
4) Привинтил снова Crawler
5) Привинтил ДЕФОЛТОВСКИЙ Indexed_search 2.9.0
6) Заработало!

Всем спасибо, похоже тема закрыта.

Tod 24.10.2006 17:08

Установил и настроил crawler. Возник вопрос. Что сделать чтобы еще и новости проиндексиовать? У меня было пару записей на обычной странице - так они нормально прочитались, а в системной директории ничего не произошло.
Может я как-то не так настроил этот crawler? Или новости хранить нужно на страницах обычного ?
Надеюсь на вашу помощь:)

Baltazarr 25.10.2006 15:47

Цитата:

Сообщение от Tod
Установил и настроил crawler. Возник вопрос. Что сделать чтобы еще и новости проиндексиовать? У меня было пару записей на обычной странице - так они нормально прочитались, а в системной директории ничего не произошло.
Может я как-то не так настроил этот crawler? Или новости хранить нужно на страницах обычного ?
Надеюсь на вашу помощь:)

Вы знаете, лично я с этим траблов не испытываю - новости индексируются, как любая-другая страничка из поддерева.
Вообще говоря, я так и не осознал до конца для чего собственно нужна сия утилита (crawler), но без неё indexed_search не фурычит - это факт.

void 25.10.2006 18:44

indexed_search индексирует только кэшированные страницы. А кэшируются страницы при их просмотре.
crawler обходит дерево страниц и, таким образом, заставляет страницы кэшироваться, а значит - индексироваться.

Tod 25.10.2006 19:22

Это я понимаю. Нашел даже доку по этому поиску, буду разбираться.
Пока так получается, что я установил crawler, добавил для него свойства какие УРЛ создать, запустил, оно мне понаписывало ОК, что обошло эти УРЛы, но вот захожу в меню пункт Indexing или через Инфо - итог один - поиск не видит эти результаты.
Что касается Indexing Configuration , то я так понял это для автоматической индексации в определенное время. С краулером пока никак не связал.
Буду думать дальше. Жаль нигде нет пошаговой докментации тупо по поиску - там смотрите то, там это. А в конце документа о поиске нашел инфу по установкам и инстале экстеншена - цирк)_

Baltazarr 25.10.2006 23:17

about Crawler
 
Цитата:

Сообщение от void
indexed_search индексирует только кэшированные страницы. А кэшируются страницы при их просмотре.
crawler обходит дерево страниц и, таким образом, заставляет страницы кэшироваться, а значит - индексироваться.

Хмм, вот это ксттаи очень интересно, я конечно тоже читал в доке как в идеале должен функционировать краулер и знаю что он должен обходить все дерево, однако у меня абсолютно ничего не обходит и в резалтах как было No entries напротив каждой подстранички так и осталось. А в таблицах индексов весь кэш лежит как положено и поиск работает идеально...

Дылгеров Ц.В. 26.10.2006 09:40

работает у то и другое
 
Цитата:

Сообщение от Tod
Это я понимаю. Нашел даже доку по этому поиску, буду разбираться.
Пока так получается, что я установил crawler, добавил для него свойства какие УРЛ создать, запустил, оно мне понаписывало ОК, что обошло эти УРЛы, но вот захожу в меню пункт Indexing или через Инфо - итог один - поиск не видит эти результаты.
Что касается Indexing Configuration , то я так понял это для автоматической индексации в определенное время. С краулером пока никак не связал.
Буду думать дальше. Жаль нигде нет пошаговой докментации тупо по поиску - там смотрите то, там это. А в конце документа о поиске нашел инфу по установкам и инстале экстеншена - цирк)_

работает и то и другое - запускаю скрипт из крона каждые 15 минут для индексации только главной страницы - она у меня генерируется около 15 секунд

насколько я понял надо в Инфо страницы в SiteCrawler выделить стоку Re-indexing - настроить для этой строки Sheduled - и Update - и потом запустить краулинг тут же одной этой страницы (для скорости настройки)

после этого проверить поиск там же - вверху Индексный поиск - Overview - эта страница

Tod 26.10.2006 17:21

В общем, вроде настроил все более-менее. ДОкументация рулит. Из таких особых моментов можно выделить, то что Indexed configuration нужно хранить обязательно в системной директории (где-то в доке вычитал, работает вроде), потом задаем для этой записи время и периодику индексирования, тип page tree. Далее запускаю краулер с параметрами что-то вроде:
Код:

tx_crawler.crawlerCfg.paramSets {
  test = contentId=[_TABLE:tt_content]
  test.procInstrFilter = tx_indexedsearch_reindex
       
  tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news; _PID:9]
  tt_news.procInstrFilter = tx_indexedsearch_reindex
  tt_news.cHash = 1
  tt_news.pidsOnly = 10
}

При этом для новостей генерируются УРЛы только на странице с единичным отображением новости - 10, и беруться записи из системной директории - 9.
Есть пару вопросов:
1. ЗАчем нужно tx_cachemgm_recache ? А то не совсем понял.
2. Системные директории тоже индексируются, но там создаются так называемые meta-entries, для которых я так понимаю нужно создать запись indexed configuration?
3. И САМОЕ ГЛАВНОЕ. Краулер и индексирование работает четко на всех страницах кроме одной - главной. Она, в принципе, не маленьках, то есть содержит больше всего инфы (пару блоков новостей, рсс, текстовые блоки), может там как-то по другому индексировать нужно? В общем, проблемка((

Tod 26.10.2006 19:43

Третий вопрос оказывается возник по причине наличи на странице РСС ленты новостей (tw_rssfeeds). Почему-то не представляю как для нее краулер настроить, да и собвественно она видимо как-то сама мешает работе, так бы индексировались другие УРЛы, а этот нет... в моем же случае - целая странице не индексируется.
Возможно что-то посоветуете по этому поводу, так как скрывать элементы РСС, потом запускать краулер, опять открывать РСС - это извращение:)
Сделал даже эти элементы на другой странице, потом как бы создал копию (ссылку) элемента на нужную страницу, без внесения его в базу - нифига)) может через TS получится. не пробовал...

Valery Romanchev 26.10.2006 20:45

Цитата:

Краулер и индексирование работает четко на всех страницах кроме одной - главной. Она, в принципе, не маленьках, то есть содержит больше всего инфы (пару блоков новостей, рсс, текстовые блоки), может там как-то по другому индексировать нужно? В общем, проблемка((
а надо ли ее индексировать?
на wciom.ru я ее не индексирую

Tod 26.10.2006 22:29

Ну на главное есть 3-4 блока с контентом как минимум. хочется, что бы и его могли найти или это не нужно?)) просто логично как бы, чтобы все находило))
---
И еще, я так понимаю, что с помощью некоторых типов Indexed configuration можно искать и без краулера? тот же поиск по самой БД... с указанием в какие таблицы смотреть.
ЗЫ. Сайт бомба... аж глаза разбегаются)) столько всего...:D
---
Еще вопрос. Можно ли как-то задать конкретно какие поля индексировать, а то на всех страницах оно кроме, допустим, новостей, понаходило инфу из МЕТА тэгов и при поиске соответствующих слов - выдаст не совсем правильный ответ.

Tod 23.11.2006 19:51

Есть страница, на которой отображаются новости, они все external - типа ссылки на другие сайты.
Пытаюсь индексировать эту страницу, но она состоит из нескольких, то есть все новости на одной не помещаются. Так вот по ссылке получается такая штука:
index.php?id=54&tx_ttnews[pointer]=1&cHash=e13df408c8
но как на деле это прописать в правила для краулера? проблема с [pointer] - где оно вообще в базе хранится?
может кто с ним сталкивался...
системную директорию с этими записями почему-то не индексирует(( там нужны какие-то доп. настройки? чем для обычных страниц?

Tod 27.11.2006 20:29

Вопрос остается в силе.
Кто-то сталкивался с тем. что при использовании краулера и индексированного поиска индексируется еще и значения МЕТА description и keywords для каждой страницы? при вводе этих значений поиск выдаст в качестве результатов все страницы, а это сами понимаете не приемлемо((

Дылгеров Ц.В. 28.11.2006 07:08

Цитата:

Сообщение от Valery Romanchev (Сообщение 7851)
а надо ли ее индексировать?
на wciom.ru я ее не индексирую

да конечно - смысл краулера на главной в том чтобы обновить кеш а не проиндексировать - а как можно сделать это из бэкэнда по-другому?

Цитата:

Сообщение от Tod (Сообщение 8279)
Вопрос остается в силе.
Кто-то сталкивался с тем. что при использовании краулера и индексированного поиска индексируется еще и значения МЕТА description и keywords для каждой страницы? при вводе этих значений поиск выдаст в качестве результатов все страницы, а это сами понимаете не приемлемо((

а тег в шаблоне <!--TYPO3SEARCH_begin--> не использовали?

Tod 28.11.2006 14:53

Цитата:

Сообщение от Дылгеров Ц.В. (Сообщение 8292)
а тег в шаблоне <!--TYPO3SEARCH_begin--> не использовали?

Изначально в шаблоне его не было, типо3 проставило его где надо для контента и все... в МЕТА его нет.

Tod 30.11.2006 15:19

Нашел в документации такие строчки:
Цитата:

Features of the indexer
The indexing engine has several features:
HTML data priority: 1) <title>-data 2) <meta-keywords>, 3) <meta-description>, 4) <body>
вот у меня также и работает - ищет тайтлы, мету... как бы это отключить?)
------------
Еще заметил такую штуку в результатах поиска. Значит оно пишет внизу ссылку Path и если этот найденный элемент является новостью, то при нажатии на него мы попадем на страницу с единичным отображением новости и надписью no news id given или как-то там еще.
Как от этого избавиться? Есть, в прицнипе, радикальный метод убрать ссылку, но можно ли по другому?
------------
еще меня интересует такой вопрос.
С запуском Site Crawler через BE кое что получилось, а вот как его запускать через крон? В BE устанавливаем там Processing Instructions, жмем Crawl URLs, а потом запускаем сам скрипт.
Если же его просто так запускать, то он у меня ничего не сделал... там в скрипте нужно передавать какие-то параметры? или нет...
В общем, если кто может и ему не лень, расскажите про запуск краулера по крону... был бы весьма признателен.

Дылгеров Ц.В. 01.12.2006 09:52

Цитата:

Сообщение от Tod (Сообщение 8350)
С запуском Site Crawler через BE кое что получилось, а вот как его запускать через крон? В BE устанавливаем там Processing Instructions, жмем Crawl URLs, а потом запускаем сам скрипт.
Если же его просто так запускать, то он у меня ничего не сделал... там в скрипте нужно передавать какие-то параметры? или нет...
В общем, если кто может и ему не лень, расскажите про запуск краулера по крону... был бы весьма признателен.

Видимо скрипт индексирует все что было задано в Processing Instructions. А задания можно раскидать по всему дереву страниц. То есть гибкости особой нет. Непонятно тогда зачем поля Scheduled: Requests / Minute:?

Tod 01.12.2006 14:27

Поставил в крон, вроде сработало, непонятно правда почему не работало вчера при прямом запуске скрипта, по поводу этих минут и времени запуска вообще какая-то неразбериха... ну в смысле влияет ли оно на что-то или нет - хз))
В общем, искренне надеюсь, что сделают какой-то нормальный во всех отношениях поиск с краулером сразу, чтобы было более наглядно все чтоли...
Кстати там появился поиск в репозитории Ajax Searching Engine Extension key ( mh_ajaxsearch ): http://typo3.org/extensions/reposito...xsearch/0.2.0/
Кто-то с ним уже работал, тестировал?

Tod 07.06.2007 15:44

Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму:(

Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело?

Дылгеров Ц.В. 09.06.2007 05:33

Цитата:

Сообщение от Tod (Сообщение 12653)
Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму:(

Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело?

Возможен вариант когда страница поменяла параметры в URL. При этом из поиска она не исчезнет, так как не была удалена, а поисковый индекс обновляется при устарении хеша при совпадении URL.

Tod 11.06.2007 19:08

Что интересно, если мы удаляем элемент контента, то он попадает в "неиспользованные элементы" и доступен в меню сверху, НО! инфа оттуда индексируется и участвует в поиске, что не совсем корректно.
Кто как решал эту "проблему"? или объяснить пользователю, что нужно такие элементы удалять?

Плюс когда еще выбираем настройки для индексации - indexing configuration - там ставим page tree и доступны только 3 уровня вложенности? Это уровни вложенности "для составления следующих ссылок" - типа оно находит тройную вложенность на странице первого уровня, а потом постепенно доходит до 3ой вложенности на других? ЛИБО нужно самостоятельно разбить настройки индексирования на 2-3 элемента, для каждого доступна максимум тройная вложенность?

Tod 05.09.2007 21:09

По поводу индексирования META entries в доке это черным по белому написано, что они тоже индерксируются... думал что только у меня они не отключены, а оказывается не все так плохо, то есть не одного меня подобное
так на http://cms-demo.typo3lab.ru при поиске слова "шаблон" выводится все 31 страница сайта, где в МЕТА есть это слово или же на http://wciom.ru при поиске "ВЦИОМ" выводится все 4539 страницы))
зы. по идее видимо можно как-то это все пообрабатывать с помощью <!--TYPO3SEARCH_begin--> (end) вокруг заголовков и МЕТА, но если гуру типо3 этого не делают, может так оно и нужно:)

razawa 22.04.2008 10:32

Скажите, а есть ли особенности Crawlera на сервере под Windows?
Когда только начал разбираться с ним - он работал.
А сейчас нет. Не найду причину.
Настройки такие.
Код:

tx_crawler.crawlerCfg.paramSets.content = day=[28-29]&mon=[2]&year=[2008]
tx_crawler.crawlerCfg.paramSets.content {
        cHash = 1
        procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
        baseUrl = http://172.16.1.231/
                                    }

Start Crawling -> Crawl Urls (выбрав re-indexing)
Ссылки получаются правильные. В Crawler log они появляются.
Cli status -> Run Now - скрипт запускается и работает, работает, работает, статус остается:start. Но в Crawler log ничего не меняется и в проиндексированных страницах не появляется тоже ничего. Но если вручную нажать на кнопочку Read в логах - все индексируется.

Есть ли особенности на Windows серверах?
Этот баг не влияет? (вроде ж нет)
И зачем нужен "indexedsearch_crawler"? - у меня он не отображается вместе с indexedsearch_reindex


Часовой пояс GMT +4, время: 18:30.

Работает на vBulletin® версия 3.8.1.
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Перевод: zCarot