Russian TYPO3 community

Russian TYPO3 community (http://forum.typo3.ru/index.php)
-   Общие вопросы (http://forum.typo3.ru/forumdisplay.php?f=12)
-   -   Site Crawler (http://forum.typo3.ru/showthread.php?t=1759)

Tod 28.11.2006 14:53

Цитата:

Сообщение от Дылгеров Ц.В. (Сообщение 8292)
а тег в шаблоне <!--TYPO3SEARCH_begin--> не использовали?

Изначально в шаблоне его не было, типо3 проставило его где надо для контента и все... в МЕТА его нет.

Tod 30.11.2006 15:19

Нашел в документации такие строчки:
Цитата:

Features of the indexer
The indexing engine has several features:
HTML data priority: 1) <title>-data 2) <meta-keywords>, 3) <meta-description>, 4) <body>
вот у меня также и работает - ищет тайтлы, мету... как бы это отключить?)
------------
Еще заметил такую штуку в результатах поиска. Значит оно пишет внизу ссылку Path и если этот найденный элемент является новостью, то при нажатии на него мы попадем на страницу с единичным отображением новости и надписью no news id given или как-то там еще.
Как от этого избавиться? Есть, в прицнипе, радикальный метод убрать ссылку, но можно ли по другому?
------------
еще меня интересует такой вопрос.
С запуском Site Crawler через BE кое что получилось, а вот как его запускать через крон? В BE устанавливаем там Processing Instructions, жмем Crawl URLs, а потом запускаем сам скрипт.
Если же его просто так запускать, то он у меня ничего не сделал... там в скрипте нужно передавать какие-то параметры? или нет...
В общем, если кто может и ему не лень, расскажите про запуск краулера по крону... был бы весьма признателен.

Дылгеров Ц.В. 01.12.2006 09:52

Цитата:

Сообщение от Tod (Сообщение 8350)
С запуском Site Crawler через BE кое что получилось, а вот как его запускать через крон? В BE устанавливаем там Processing Instructions, жмем Crawl URLs, а потом запускаем сам скрипт.
Если же его просто так запускать, то он у меня ничего не сделал... там в скрипте нужно передавать какие-то параметры? или нет...
В общем, если кто может и ему не лень, расскажите про запуск краулера по крону... был бы весьма признателен.

Видимо скрипт индексирует все что было задано в Processing Instructions. А задания можно раскидать по всему дереву страниц. То есть гибкости особой нет. Непонятно тогда зачем поля Scheduled: Requests / Minute:?

Tod 01.12.2006 14:27

Поставил в крон, вроде сработало, непонятно правда почему не работало вчера при прямом запуске скрипта, по поводу этих минут и времени запуска вообще какая-то неразбериха... ну в смысле влияет ли оно на что-то или нет - хз))
В общем, искренне надеюсь, что сделают какой-то нормальный во всех отношениях поиск с краулером сразу, чтобы было более наглядно все чтоли...
Кстати там появился поиск в репозитории Ajax Searching Engine Extension key ( mh_ajaxsearch ): http://typo3.org/extensions/reposito...xsearch/0.2.0/
Кто-то с ним уже работал, тестировал?

Tod 07.06.2007 15:44

Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму:(

Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело?

Дылгеров Ц.В. 09.06.2007 05:33

Цитата:

Сообщение от Tod (Сообщение 12653)
Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму:(

Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело?

Возможен вариант когда страница поменяла параметры в URL. При этом из поиска она не исчезнет, так как не была удалена, а поисковый индекс обновляется при устарении хеша при совпадении URL.

Tod 11.06.2007 19:08

Что интересно, если мы удаляем элемент контента, то он попадает в "неиспользованные элементы" и доступен в меню сверху, НО! инфа оттуда индексируется и участвует в поиске, что не совсем корректно.
Кто как решал эту "проблему"? или объяснить пользователю, что нужно такие элементы удалять?

Плюс когда еще выбираем настройки для индексации - indexing configuration - там ставим page tree и доступны только 3 уровня вложенности? Это уровни вложенности "для составления следующих ссылок" - типа оно находит тройную вложенность на странице первого уровня, а потом постепенно доходит до 3ой вложенности на других? ЛИБО нужно самостоятельно разбить настройки индексирования на 2-3 элемента, для каждого доступна максимум тройная вложенность?

Tod 05.09.2007 21:09

По поводу индексирования META entries в доке это черным по белому написано, что они тоже индерксируются... думал что только у меня они не отключены, а оказывается не все так плохо, то есть не одного меня подобное
так на http://cms-demo.typo3lab.ru при поиске слова "шаблон" выводится все 31 страница сайта, где в МЕТА есть это слово или же на http://wciom.ru при поиске "ВЦИОМ" выводится все 4539 страницы))
зы. по идее видимо можно как-то это все пообрабатывать с помощью <!--TYPO3SEARCH_begin--> (end) вокруг заголовков и МЕТА, но если гуру типо3 этого не делают, может так оно и нужно:)

razawa 22.04.2008 10:32

Скажите, а есть ли особенности Crawlera на сервере под Windows?
Когда только начал разбираться с ним - он работал.
А сейчас нет. Не найду причину.
Настройки такие.
Код:

tx_crawler.crawlerCfg.paramSets.content = day=[28-29]&mon=[2]&year=[2008]
tx_crawler.crawlerCfg.paramSets.content {
        cHash = 1
        procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
        baseUrl = http://172.16.1.231/
                                    }

Start Crawling -> Crawl Urls (выбрав re-indexing)
Ссылки получаются правильные. В Crawler log они появляются.
Cli status -> Run Now - скрипт запускается и работает, работает, работает, статус остается:start. Но в Crawler log ничего не меняется и в проиндексированных страницах не появляется тоже ничего. Но если вручную нажать на кнопочку Read в логах - все индексируется.

Есть ли особенности на Windows серверах?
Этот баг не влияет? (вроде ж нет)
И зачем нужен "indexedsearch_crawler"? - у меня он не отображается вместе с indexedsearch_reindex


Часовой пояс GMT +4, время: 18:39.

Работает на vBulletin® версия 3.8.1.
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Перевод: zCarot