twg 871 Опубликовано: 2015-03-26 11:56:22 Share Опубликовано: 2015-03-26 11:56:22 (відредаговано) Может у когото есть опыт, кто делал сабж, посоветуйте. Хочется сделать индексацию и фултекст поиск по прайсам на сайте. С морфологией/стимингом. За 2 дня начитался много, кое-че пробовал, но не могу определиться что использовать. Хочу попросить поделиться опытом у кого он есть, что работает хорошо и стабильно. Спасибо. UPD xls, xlsx нужно индексировать. Відредаговано 2015-03-26 11:58:02 twg Ссылка на сообщение Поделиться на других сайтах
supportod 1 Опубліковано: 2015-03-26 12:04:59 Share Опубліковано: 2015-03-26 12:04:59 Sphinx Ссылка на сообщение Поделиться на других сайтах
twg 871 Опубліковано: 2015-03-26 12:08:23 Автор Share Опубліковано: 2015-03-26 12:08:23 Sphinx Спасибо. Смотрел, но не пробовал. Хвалят его многие. Примерчика нету как индексировать екселевские файлы? Ссылка на сообщение Поделиться на других сайтах
linear 1 Опубліковано: 2015-03-26 12:24:22 Share Опубліковано: 2015-03-26 12:24:22 Apache Solr Ссылка на сообщение Поделиться на других сайтах
twg 871 Опубліковано: 2015-03-26 12:31:25 Автор Share Опубліковано: 2015-03-26 12:31:25 Apache Solr Спасибо. Все это знает гугл. Я прошу поделиться опытом. Используете? Стабильный? Нагрузка? Ведь на джаве. Для небольшого проекта не будет как из пушки по воробьям? Да и заморочки те же. В чистом виде только XML/text Ссылка на сообщение Поделиться на других сайтах
ttttt 195 Опубліковано: 2015-03-26 12:31:28 Share Опубліковано: 2015-03-26 12:31:28 (відредаговано) Xapian тоже гляньте. (опыт был) С русскоязычным стэммингом не знаю как сейчас, но традиционный сноубол алгоритм плохо работает, нужно много исключений. Відредаговано 2015-03-26 12:32:48 ttttt Ссылка на сообщение Поделиться на других сайтах
supportod 1 Опубліковано: 2015-03-26 12:33:28 Share Опубліковано: 2015-03-26 12:33:28 (відредаговано) Еще смотрите модуль для сфинкса - sphinxcontrib-exceltable Відредаговано 2015-03-26 12:34:13 supportod Ссылка на сообщение Поделиться на других сайтах
Setevoy 127 Опубліковано: 2015-03-26 14:21:11 Share Опубліковано: 2015-03-26 14:21:11 А что у вас в прайс-листах? Если там модели оборудования латиницей, как например у нас, то штатная морфология и стемминг не подойдёт. Нужно руками доделывать. Если поиск _только_ по прайсу, то, возможно, и не нужен вам полновесный движок поиска. Из опыта - у нас на сайте поиск на Lucene. К производительности нареканий нет. Джава не смущает - сайт тоже на ней писан. Ссылка на сообщение Поделиться на других сайтах
twg 871 Опубліковано: 2015-03-26 18:24:49 Автор Share Опубліковано: 2015-03-26 18:24:49 А что у вас в прайс-листах? Если там модели оборудования латиницей, как например у нас, то штатная морфология и стемминг не подойдёт. Нужно руками доделывать. Если поиск _только_ по прайсу, то, возможно, и не нужен вам полновесный движок поиска. Из опыта - у нас на сайте поиск на Lucene. К производительности нареканий нет. Джава не смущает - сайт тоже на ней писан. прайсы будут (ещё нет ничего) всякие разные и загружать их будут всякие разные люди. Т.е. приводить их к виду не будет возможности. Ну это проблема на самом деле. Труднорешаемая. По этому при индексации нужно будет мудрить с фильтрами. Пока попробую sphinx. Установился с rpm'а на CentOS7 без проблем. Пока разобрался как работает их xmlpipe и день прошел )) Завтра продолжу. ) Если останутся силы и желание, то и Lucene попробую. Интересно ) Жаль, что ничего из этого из коробки не парсит xls и xlsx ( Нужно поплясать вокруг. Ссылка на сообщение Поделиться на других сайтах
Setevoy 127 Опубліковано: 2015-03-26 21:46:20 Share Опубліковано: 2015-03-26 21:46:20 прайсы будут (ещё нет ничего) всякие разные и загружать их будут всякие разные люди. Т.е. приводить их к виду не будет возможности. Ну это проблема на самом деле. Труднорешаемая. По этому при индексации нужно будет мудрить с фильтрами. Пока попробую sphinx. Установился с rpm'а на CentOS7 без проблем. Пока разобрался как работает их xmlpipe и день прошел )) Завтра продолжу. ) Если останутся силы и желание, то и Lucene попробую. Интересно ) Жаль, что ничего из этого из коробки не парсит xls и xlsx ( Нужно поплясать вокруг. А по запросу нужно будет отображать прайс с совпадением целиком, или отдельную строку прайса с совпадением? Lucene вам подойдёт только если есть кому на джаве кодить. Если нет - смотрите Solr. Это более готовый для использования инструмент, а Lucene в нём под капотом. Ссылка на сообщение Поделиться на других сайтах
ArtTy 0 Опубліковано: 2018-08-24 19:59:51 Share Опубліковано: 2018-08-24 19:59:51 Привет всем! Я настраиваю сабж по: http://wiki.ubilling.net.ua/doku.php?id=sphinx остановился на строке этой инструкции: Цитата Копируем и правим конфиг. Интересует в основном секция подключения к БД. # cp /usr/local/www/apache24/data/billing/docs/sphinxsearch/sphinx3.conf /opt/sphinx/etc/sphinx.conf у меня нет исходного файла "sphinx3.conf" для дальнейшей правки. Кто знает как сделать или почему у меня нет этого, подскажите! Ссылка на сообщение Поделиться на других сайтах
l1ght 377 Опубліковано: 2018-08-24 23:13:20 Share Опубліковано: 2018-08-24 23:13:20 3 часа назад, ArtTy сказал: Привет всем! Я настраиваю сабж по: http://wiki.ubilling.net.ua/doku.php?id=sphinx остановился на строке этой инструкции: у меня нет исходного файла "sphinx3.conf" для дальнейшей правки. Кто знает как сделать или почему у меня нет этого, подскажите! Госпаде, а почему не в тему по убиллингу. На каррент обновитесь господи прости. Оно ж для 0.9.2 1 Ссылка на сообщение Поделиться на других сайтах
Рекомендованные сообщения
Создайте аккаунт или войдите в него для комментирования
Вы должны быть пользователем, чтобы оставить комментарий
Создать аккаунт
Зарегистрируйтесь для получения аккаунта. Это просто!
Зарегистрировать аккаунтВхід
Уже зарегистрированы? Войдите здесь.
Войти сейчас