![]() |
Site Crawler
Всем привет, вот решил применить индексирванный поиск на своем проекте: пытаюсь "прокрулить урлы" но ничего не тполучается плюс в колонке выбора "Processing Instructions:" просто пусто - нет ничего...
Кто-нибудь стаклкивался когда-нибудь с такой проблемой? |
Цитата:
|
Расширение Indexed search стоит
|
Акей, черт с ним с краулером - у меня итак все индексируется и кешируется нормально. Однако теперь проблема другого сорта - не могу понять как indexed search заставить искать контент на русском языке. Смотрел предыдущие топики по этой теме, вроде ничего не нашёл. Ссылка, куда в первую очередь рекоммендуют пойти, прежде чем послать подальше :) http://typo3.net.ru/viewtopic.php?t=9 тоже не работает... Пробовал и такой метод, предложенный Валерием - напонить массив $convChars русскими буквами в class.indexer.php
Код:
var $convChars=array( \"АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ\", \"абвгдеёжзийклмнопрстуфхцчшщъыьэюя\" ); |
Цитата:
если у Вас сайт в uft8, то все должно работать сразу после установки и без проблем |
вы правы, контент на английском языке принимает прекрасно, но вот с русским никак
|
Цитата:
сколько раз ставил поиск на 4.0 - всегда хорошо работал http://www.p2b.ru/indexed-search.html |
Я вот вспомнил, что ставил недавно патч Виталия Дутчака "Patch for Indexed_search Extension key ( dvdg_indexedsearch_patch )", хмм может он чем-то повлиял на индексный поиск?
|
Посмотрел все таблицы, а так же index_fulltext - они заполнены текстами с моего контента, ничего не понимаю - почему же не ищет?..
|
да, и ещё версия моего индексного поиска 2.1.3
|
Плюс я ещё заметил в секции "Available Extensions - Grouped by: Category
" в Экст Манагере напротив Плагина Indexed Search Engine стоит запись "Local SL". Никто не знает, что бы это могло означать? (Извиняюсь за поток вопросов.. :)) |
Я понял, что мой вопрос довольно проблематичен для рассмотрения. Тогда у меня просьба ко всем, кто внедрял на свои проекты индексированный поиск: если кого-нибудь не затруднит, скиньте мне на почту lexinc@mail.ru рабочий indexed_search.t3x экстеншн плиииз..
Просто у меня подозрение, что я сгрузил себе нечто нестандартное что ли... |
продвижение
И ещё, у меня стоит тайпо версии 4.0.1 в нем оказывается уже есть встренный индексированый поиск Версии 2.9.0! Я снёс фронтенд плагин и поставил этот дефолтовский, однако при поиске слов на русском языке он так же ничего не выводит, а при поиске английских фраз он их находит, но появляются следующие варнинги:
Код:
Warning: Missing argument 3 for tx_indexedsearch::makePointerSelector_link() in C:\www\typo3\typo3\sysext\indexed_search\pi\class.tx_indexedsearch.php on line 1832 |
Разобрался, варнинги были из-за расширения indexed_search_templates. Пока снес - варнинги ушли.
И ещё одна занимательная вещь: копирую текст в кодировке 1251 вставляю в текстовое поле страницы - прекрсано его находит. P.S. В записях новостей ttnews поиск работает без запинки.. |
заодно краулер можно посмотреть
|
Снес краулер, т.к. вроде в indexed_search 2.9.0 есть уже встренный, однако при попытке поиска или захода на поисковый пэйдж выдаётся следующе сообщение:
Код:
NO entry in the $TCA-array for the table "index_config". This means that the function enableFields() is called with an invalid table name as argument. |
Таак, похоже проблема убита "в лоб"!
1) Убедился, что все настройки локализаци впорядке: настройки localconf присутствуют: $TYPO3_CONF_VARS['BE']['forceCharset'] = "utf-8"; $TYPO3_CONF_VARS['SYS']['setDBinit'] = 'SET NAMES utf8;'; В TS-config тоже все прописано: config { admPanel=0 index_enable = 1 index_externals = 1 sys_language_uid = 0 forceCharset = utf-8 metaCharset = utf-8 renderCharset = utf-8 language = ru locale_all = ru_RU.UTF-8 } } 2) Снес вообще, все что связано с индексным поиском. 3) Отчистил вручную БД от таблиц index_* 4) Привинтил снова Crawler 5) Привинтил ДЕФОЛТОВСКИЙ Indexed_search 2.9.0 6) Заработало! Всем спасибо, похоже тема закрыта. |
Установил и настроил crawler. Возник вопрос. Что сделать чтобы еще и новости проиндексиовать? У меня было пару записей на обычной странице - так они нормально прочитались, а в системной директории ничего не произошло.
Может я как-то не так настроил этот crawler? Или новости хранить нужно на страницах обычного ? Надеюсь на вашу помощь:) |
Цитата:
Вообще говоря, я так и не осознал до конца для чего собственно нужна сия утилита (crawler), но без неё indexed_search не фурычит - это факт. |
indexed_search индексирует только кэшированные страницы. А кэшируются страницы при их просмотре.
crawler обходит дерево страниц и, таким образом, заставляет страницы кэшироваться, а значит - индексироваться. |
Это я понимаю. Нашел даже доку по этому поиску, буду разбираться.
Пока так получается, что я установил crawler, добавил для него свойства какие УРЛ создать, запустил, оно мне понаписывало ОК, что обошло эти УРЛы, но вот захожу в меню пункт Indexing или через Инфо - итог один - поиск не видит эти результаты. Что касается Indexing Configuration , то я так понял это для автоматической индексации в определенное время. С краулером пока никак не связал. Буду думать дальше. Жаль нигде нет пошаговой докментации тупо по поиску - там смотрите то, там это. А в конце документа о поиске нашел инфу по установкам и инстале экстеншена - цирк)_ |
about Crawler
Цитата:
|
работает у то и другое
Цитата:
насколько я понял надо в Инфо страницы в SiteCrawler выделить стоку Re-indexing - настроить для этой строки Sheduled - и Update - и потом запустить краулинг тут же одной этой страницы (для скорости настройки) после этого проверить поиск там же - вверху Индексный поиск - Overview - эта страница |
В общем, вроде настроил все более-менее. ДОкументация рулит. Из таких особых моментов можно выделить, то что Indexed configuration нужно хранить обязательно в системной директории (где-то в доке вычитал, работает вроде), потом задаем для этой записи время и периодику индексирования, тип page tree. Далее запускаю краулер с параметрами что-то вроде:
Код:
tx_crawler.crawlerCfg.paramSets { Есть пару вопросов: 1. ЗАчем нужно tx_cachemgm_recache ? А то не совсем понял. 2. Системные директории тоже индексируются, но там создаются так называемые meta-entries, для которых я так понимаю нужно создать запись indexed configuration? 3. И САМОЕ ГЛАВНОЕ. Краулер и индексирование работает четко на всех страницах кроме одной - главной. Она, в принципе, не маленьках, то есть содержит больше всего инфы (пару блоков новостей, рсс, текстовые блоки), может там как-то по другому индексировать нужно? В общем, проблемка(( |
Третий вопрос оказывается возник по причине наличи на странице РСС ленты новостей (tw_rssfeeds). Почему-то не представляю как для нее краулер настроить, да и собвественно она видимо как-то сама мешает работе, так бы индексировались другие УРЛы, а этот нет... в моем же случае - целая странице не индексируется.
Возможно что-то посоветуете по этому поводу, так как скрывать элементы РСС, потом запускать краулер, опять открывать РСС - это извращение:) Сделал даже эти элементы на другой странице, потом как бы создал копию (ссылку) элемента на нужную страницу, без внесения его в базу - нифига)) может через TS получится. не пробовал... |
Цитата:
на wciom.ru я ее не индексирую |
Ну на главное есть 3-4 блока с контентом как минимум. хочется, что бы и его могли найти или это не нужно?)) просто логично как бы, чтобы все находило))
--- И еще, я так понимаю, что с помощью некоторых типов Indexed configuration можно искать и без краулера? тот же поиск по самой БД... с указанием в какие таблицы смотреть. ЗЫ. Сайт бомба... аж глаза разбегаются)) столько всего...:D --- Еще вопрос. Можно ли как-то задать конкретно какие поля индексировать, а то на всех страницах оно кроме, допустим, новостей, понаходило инфу из МЕТА тэгов и при поиске соответствующих слов - выдаст не совсем правильный ответ. |
Есть страница, на которой отображаются новости, они все external - типа ссылки на другие сайты.
Пытаюсь индексировать эту страницу, но она состоит из нескольких, то есть все новости на одной не помещаются. Так вот по ссылке получается такая штука: index.php?id=54&tx_ttnews[pointer]=1&cHash=e13df408c8 но как на деле это прописать в правила для краулера? проблема с [pointer] - где оно вообще в базе хранится? может кто с ним сталкивался... системную директорию с этими записями почему-то не индексирует(( там нужны какие-то доп. настройки? чем для обычных страниц? |
Вопрос остается в силе.
Кто-то сталкивался с тем. что при использовании краулера и индексированного поиска индексируется еще и значения МЕТА description и keywords для каждой страницы? при вводе этих значений поиск выдаст в качестве результатов все страницы, а это сами понимаете не приемлемо(( |
Цитата:
Цитата:
|
Цитата:
|
Нашел в документации такие строчки:
Цитата:
------------ Еще заметил такую штуку в результатах поиска. Значит оно пишет внизу ссылку Path и если этот найденный элемент является новостью, то при нажатии на него мы попадем на страницу с единичным отображением новости и надписью no news id given или как-то там еще. Как от этого избавиться? Есть, в прицнипе, радикальный метод убрать ссылку, но можно ли по другому? ------------ еще меня интересует такой вопрос. С запуском Site Crawler через BE кое что получилось, а вот как его запускать через крон? В BE устанавливаем там Processing Instructions, жмем Crawl URLs, а потом запускаем сам скрипт. Если же его просто так запускать, то он у меня ничего не сделал... там в скрипте нужно передавать какие-то параметры? или нет... В общем, если кто может и ему не лень, расскажите про запуск краулера по крону... был бы весьма признателен. |
Цитата:
|
Поставил в крон, вроде сработало, непонятно правда почему не работало вчера при прямом запуске скрипта, по поводу этих минут и времени запуска вообще какая-то неразбериха... ну в смысле влияет ли оно на что-то или нет - хз))
В общем, искренне надеюсь, что сделают какой-то нормальный во всех отношениях поиск с краулером сразу, чтобы было более наглядно все чтоли... Кстати там появился поиск в репозитории Ajax Searching Engine Extension key ( mh_ajaxsearch ): http://typo3.org/extensions/reposito...xsearch/0.2.0/ Кто-то с ним уже работал, тестировал? |
Вопрос: есть запись в КРОНЕ (запускается раз в час!) + Crawler Configuration (там установлено "рэ-индекст раз в 24час"). Какая именно настройка из этих 2х запускает индексацию? никак не пойму:(
Второй вопрос: человек ввел на сайт инфу, она проиндексировалась. Потом информация изменилась/была удалена, но поиск почему-то не подхватил это дело... Я думаю вручную удалять проиндексированную запись в админке это как вариант, но должно все работать и автоматически, ведь таК? Какая настройка отвечает за это дело? |
Цитата:
|
Что интересно, если мы удаляем элемент контента, то он попадает в "неиспользованные элементы" и доступен в меню сверху, НО! инфа оттуда индексируется и участвует в поиске, что не совсем корректно.
Кто как решал эту "проблему"? или объяснить пользователю, что нужно такие элементы удалять? Плюс когда еще выбираем настройки для индексации - indexing configuration - там ставим page tree и доступны только 3 уровня вложенности? Это уровни вложенности "для составления следующих ссылок" - типа оно находит тройную вложенность на странице первого уровня, а потом постепенно доходит до 3ой вложенности на других? ЛИБО нужно самостоятельно разбить настройки индексирования на 2-3 элемента, для каждого доступна максимум тройная вложенность? |
По поводу индексирования META entries в доке это черным по белому написано, что они тоже индерксируются... думал что только у меня они не отключены, а оказывается не все так плохо, то есть не одного меня подобное
так на http://cms-demo.typo3lab.ru при поиске слова "шаблон" выводится все 31 страница сайта, где в МЕТА есть это слово или же на http://wciom.ru при поиске "ВЦИОМ" выводится все 4539 страницы)) зы. по идее видимо можно как-то это все пообрабатывать с помощью <!--TYPO3SEARCH_begin--> (end) вокруг заголовков и МЕТА, но если гуру типо3 этого не делают, может так оно и нужно:) |
Скажите, а есть ли особенности Crawlera на сервере под Windows?
Когда только начал разбираться с ним - он работал. А сейчас нет. Не найду причину. Настройки такие. Код:
tx_crawler.crawlerCfg.paramSets.content = day=[28-29]&mon=[2]&year=[2008] Ссылки получаются правильные. В Crawler log они появляются. Cli status -> Run Now - скрипт запускается и работает, работает, работает, статус остается:start. Но в Crawler log ничего не меняется и в проиндексированных страницах не появляется тоже ничего. Но если вручную нажать на кнопочку Read в логах - все индексируется. Есть ли особенности на Windows серверах? Этот баг не влияет? (вроде ж нет) И зачем нужен "indexedsearch_crawler"? - у меня он не отображается вместе с indexedsearch_reindex |
Часовой пояс GMT +4, время: 18:30. |
Работает на vBulletin® версия 3.8.1.
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Перевод: zCarot