Site Crawler - Страница 4

Tod · 28.11.2006, 14:53

Цитата:

Сообщение от Дылгеров Ц.В.

а тег в шаблоне  не использовали?

Изначально в шаблоне его не было, типо3 проставило его где надо для контента и все... в МЕТА его нет.

Tod · 30.11.2006, 15:19

Нашел в документации такие строчки:

Цитата:

Features of the indexer
The indexing engine has several features:
HTML data priority: 1) <title>-data 2) <meta-keywords>, 3) <meta-description>, 4) <body>

вот у меня также и работает - ищет тайтлы, мету... как бы это отключить?)
------------
Еще заметил такую штуку в результатах поиска. Значит оно пишет внизу ссылку Path и если этот найденный элемент является новостью, то при нажатии на него мы попадем на страницу с единичным отображением новости и надписью no news id given или как-то там еще.
Как от этого избавиться? Есть, в прицнипе, радикальный метод убрать ссылку, но можно ли по другому?
------------
еще меня интересует такой вопрос.
С запуском Site Crawler через BE кое что получилось, а вот как его запускать через крон? В BE устанавливаем там Processing Instructions, жмем Crawl URLs, а потом запускаем сам скрипт.
Если же его просто так запускать, то он у меня ничего не сделал... там в скрипте нужно передавать какие-то параметры? или нет...
В общем, если кто может и ему не лень, расскажите про запуск краулера по крону... был бы весьма признателен.

Дылгеров Ц.В. · 01.12.2006, 09:52

Цитата:

Сообщение от Tod

С запуском Site Crawler через BE кое что получилось, а вот как его запускать через крон? В BE устанавливаем там Processing Instructions, жмем Crawl URLs, а потом запускаем сам скрипт.
Если же его просто так запускать, то он у меня ничего не сделал... там в скрипте нужно передавать какие-то параметры? или нет...
В общем, если кто может и ему не лень, расскажите про запуск краулера по крону... был бы весьма признателен.

Видимо скрипт индексирует все что было задано в Processing Instructions. А задания можно раскидать по всему дереву страниц. То есть гибкости особой нет. Непонятно тогда зачем поля Scheduled: Requests / Minute:?

Tod · 01.12.2006, 14:27

Поставил в крон, вроде сработало, непонятно правда почему не работало вчера при прямом запуске скрипта, по поводу этих минут и времени запуска вообще какая-то неразбериха... ну в смысле влияет ли оно на что-то или нет - хз))
В общем, искренне надеюсь, что сделают какой-то нормальный во всех отношениях поиск с краулером сразу, чтобы было более наглядно все чтоли...
Кстати там появился поиск в репозитории Ajax Searching Engine Extension key ( mh_ajaxsearch ): http://typo3.org/extensions/reposito...xsearch/0.2.0/
Кто-то с ним уже работал, тестировал?

Tod · 07.06.2007, 15:44

Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму

Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело?

Дылгеров Ц.В. · 09.06.2007, 05:33

Цитата:

Сообщение от Tod

Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму

Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело?

Возможен вариант когда страница поменяла параметры в URL. При этом из поиска она не исчезнет, так как не была удалена, а поисковый индекс обновляется при устарении хеша при совпадении URL.

Tod · 11.06.2007, 19:08

Что интересно, если мы удаляем элемент контента, то он попадает в "неиспользованные элементы" и доступен в меню сверху, НО! инфа оттуда индексируется и участвует в поиске, что не совсем корректно.
Кто как решал эту "проблему"? или объяснить пользователю, что нужно такие элементы удалять?

Плюс когда еще выбираем настройки для индексации - indexing configuration - там ставим page tree и доступны только 3 уровня вложенности? Это уровни вложенности "для составления следующих ссылок" - типа оно находит тройную вложенность на странице первого уровня, а потом постепенно доходит до 3ой вложенности на других? ЛИБО нужно самостоятельно разбить настройки индексирования на 2-3 элемента, для каждого доступна максимум тройная вложенность?

Tod · 05.09.2007, 21:09

По поводу индексирования META entries в доке это черным по белому написано, что они тоже индерксируются... думал что только у меня они не отключены, а оказывается не все так плохо, то есть не одного меня подобное
так на http://cms-demo.typo3lab.ru при поиске слова "шаблон" выводится все 31 страница сайта, где в МЕТА есть это слово или же на http://wciom.ru при поиске "ВЦИОМ" выводится все 4539 страницы))
зы. по идее видимо можно как-то это все пообрабатывать с помощью  (end) вокруг заголовков и МЕТА, но если гуру типо3 этого не делают, может так оно и нужно

razawa · 22.04.2008, 10:32

Скажите, а есть ли особенности Crawlera на сервере под Windows?
Когда только начал разбираться с ним - он работал.
А сейчас нет. Не найду причину.
Настройки такие.

Код:

tx_crawler.crawlerCfg.paramSets.content = day=[28-29]&mon=[2]&year=[2008]
tx_crawler.crawlerCfg.paramSets.content {
	cHash = 1
	procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
	baseUrl = http://172.16.1.231/
				     }

Start Crawling -> Crawl Urls (выбрав re-indexing)
Ссылки получаются правильные. В Crawler log они появляются.
Cli status -> Run Now - скрипт запускается и работает, работает, работает, статус остается:start. Но в Crawler log ничего не меняется и в проиндексированных страницах не появляется тоже ничего. Но если вручную нажать на кнопочку Read в логах - все индексируется.

Есть ли особенности на Windows серверах?
Этот баг не влияет? (вроде ж нет)
И зачем нужен "indexedsearch_crawler"? - у меня он не отображается вместе с indexedsearch_reindex

01.12.2006, 14:27	#34
Tod Senior Member Регистрация: 25.03.2006 Сообщений: 627	Поставил в крон, вроде сработало, непонятно правда почему не работало вчера при прямом запуске скрипта, по поводу этих минут и времени запуска вообще какая-то неразбериха... ну в смысле влияет ли оно на что-то или нет - хз)) В общем, искренне надеюсь, что сделают какой-то нормальный во всех отношениях поиск с краулером сразу, чтобы было более наглядно все чтоли... Кстати там появился поиск в репозитории Ajax Searching Engine Extension key ( mh_ajaxsearch ): http://typo3.org/extensions/reposito...xsearch/0.2.0/ Кто-то с ним уже работал, тестировал? __________________ Персональный блог про заработок в интернете + полезных блога про typo3 и wordpress

07.06.2007, 15:44	#35
Tod Senior Member Регистрация: 25.03.2006 Сообщений: 627	Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело? __________________ Персональный блог про заработок в интернете + полезных блога про typo3 и wordpress

11.06.2007, 19:08	#37
Tod Senior Member Регистрация: 25.03.2006 Сообщений: 627	Что интересно, если мы удаляем элемент контента, то он попадает в "неиспользованные элементы" и доступен в меню сверху, НО! инфа оттуда индексируется и участвует в поиске, что не совсем корректно. Кто как решал эту "проблему"? или объяснить пользователю, что нужно такие элементы удалять? Плюс когда еще выбираем настройки для индексации - indexing configuration - там ставим page tree и доступны только 3 уровня вложенности? Это уровни вложенности "для составления следующих ссылок" - типа оно находит тройную вложенность на странице первого уровня, а потом постепенно доходит до 3ой вложенности на других? ЛИБО нужно самостоятельно разбить настройки индексирования на 2-3 элемента, для каждого доступна максимум тройная вложенность? __________________ Персональный блог про заработок в интернете + полезных блога про typo3 и wordpress Последний раз редактировалось Tod; 12.06.2007 в 14:17

05.09.2007, 21:09	#38
Tod Senior Member Регистрация: 25.03.2006 Сообщений: 627	По поводу индексирования META entries в доке это черным по белому написано, что они тоже индерксируются... думал что только у меня они не отключены, а оказывается не все так плохо, то есть не одного меня подобное так на http://cms-demo.typo3lab.ru при поиске слова "шаблон" выводится все 31 страница сайта, где в МЕТА есть это слово или же на http://wciom.ru при поиске "ВЦИОМ" выводится все 4539 страницы)) зы. по идее видимо можно как-то это все пообрабатывать с помощью <!--TYPO3SEARCH_begin--> (end) вокруг заголовков и МЕТА, но если гуру типо3 этого не делают, может так оно и нужно __________________ Персональный блог про заработок в интернете + полезных блога про typo3 и wordpress

22.04.2008, 10:32	#39
razawa Senior Member Регистрация: 02.03.2007 Адрес: Украина, Дружковка Сообщений: 128	Скажите, а есть ли особенности Crawlera на сервере под Windows? Когда только начал разбираться с ним - он работал. А сейчас нет. Не найду причину. Настройки такие. Код: tx_crawler.crawlerCfg.paramSets.content = day=[28-29]&mon=[2]&year=[2008] tx_crawler.crawlerCfg.paramSets.content { cHash = 1 procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler baseUrl = http://172.16.1.231/ } Start Crawling -> Crawl Urls (выбрав re-indexing) Ссылки получаются правильные. В Crawler log они появляются. Cli status -> Run Now - скрипт запускается и работает, работает, работает, статус остается:start. Но в Crawler log ничего не меняется и в проиндексированных страницах не появляется тоже ничего. Но если вручную нажать на кнопочку Read в логах - все индексируется. Есть ли особенности на Windows серверах? Этот баг не влияет? (вроде ж нет) И зачем нужен "indexedsearch_crawler"? - у меня он не отображается вместе с indexedsearch_reindex