Перейти до

Индексация и полнотекстовой поиск по файлам на сайте.


twg

Рекомендованные сообщения

Может у когото есть опыт, кто делал сабж, посоветуйте.

Хочется сделать индексацию и фултекст поиск по прайсам на сайте. С морфологией/стимингом.

За 2 дня начитался много, кое-че пробовал, но не могу определиться что использовать. Хочу попросить поделиться опытом у кого он есть, что работает хорошо и стабильно.

 

Спасибо.

 

UPD xls, xlsx нужно индексировать.

Відредаговано twg
Ссылка на сообщение
Поделиться на других сайтах

Apache Solr

Спасибо. Все это знает гугл. Я прошу поделиться опытом. Используете? Стабильный? Нагрузка? Ведь на джаве. Для небольшого проекта не будет как из пушки по воробьям? Да и заморочки те же. В чистом виде только XML/text

Ссылка на сообщение
Поделиться на других сайтах

Xapian тоже гляньте. (опыт был)

 

С русскоязычным стэммингом не знаю как сейчас, но традиционный сноубол алгоритм плохо работает, нужно много исключений.

Відредаговано ttttt
Ссылка на сообщение
Поделиться на других сайтах

А что у вас в прайс-листах? Если там модели оборудования латиницей, как например у нас, то штатная морфология и стемминг не подойдёт. Нужно руками доделывать.

Если поиск _только_ по прайсу, то, возможно, и не нужен вам полновесный движок поиска.

Из опыта - у нас на сайте поиск на Lucene. К производительности нареканий нет. Джава не смущает - сайт тоже на ней писан.

Ссылка на сообщение
Поделиться на других сайтах

А что у вас в прайс-листах? Если там модели оборудования латиницей, как например у нас, то штатная морфология и стемминг не подойдёт. Нужно руками доделывать.

Если поиск _только_ по прайсу, то, возможно, и не нужен вам полновесный движок поиска.

Из опыта - у нас на сайте поиск на Lucene. К производительности нареканий нет. Джава не смущает - сайт тоже на ней писан.

прайсы будут (ещё нет ничего) всякие разные и загружать их будут всякие разные люди. Т.е. приводить их к виду не будет возможности. Ну это проблема на самом деле. Труднорешаемая. По этому при индексации нужно будет мудрить с фильтрами.

Пока попробую sphinx. Установился с rpm'а на CentOS7 без проблем. Пока разобрался как работает их xmlpipe и день прошел )) Завтра продолжу. )

Если останутся силы и желание, то и Lucene попробую. Интересно )

Жаль, что ничего из этого из коробки не парсит xls и xlsx ( Нужно поплясать вокруг.

Ссылка на сообщение
Поделиться на других сайтах

прайсы будут (ещё нет ничего) всякие разные и загружать их будут всякие разные люди. Т.е. приводить их к виду не будет возможности. Ну это проблема на самом деле. Труднорешаемая. По этому при индексации нужно будет мудрить с фильтрами.

Пока попробую sphinx. Установился с rpm'а на CentOS7 без проблем. Пока разобрался как работает их xmlpipe и день прошел )) Завтра продолжу. )

Если останутся силы и желание, то и Lucene попробую. Интересно )

Жаль, что ничего из этого из коробки не парсит xls и xlsx ( Нужно поплясать вокруг.

 

А по запросу нужно будет отображать прайс с совпадением целиком, или отдельную строку прайса с совпадением?

 

Lucene вам подойдёт только если есть кому на джаве кодить. Если нет - смотрите Solr. Это более готовый для использования инструмент, а Lucene в нём под капотом.

Ссылка на сообщение
Поделиться на других сайтах
  • 3 years later...

Привет всем!

 

Я настраиваю сабж по:

http://wiki.ubilling.net.ua/doku.php?id=sphinx

остановился на строке этой инструкции:

Цитата

Копируем и правим конфиг. Интересует в основном секция подключения к БД.

# cp /usr/local/www/apache24/data/billing/docs/sphinxsearch/sphinx3.conf /opt/sphinx/etc/sphinx.conf

 

у меня нет исходного файла "sphinx3.conf" для дальнейшей правки.

 

Кто знает как сделать или почему у меня нет этого, подскажите!

Ссылка на сообщение
Поделиться на других сайтах
3 часа назад, ArtTy сказал:

Привет всем!

 

Я настраиваю сабж по:

http://wiki.ubilling.net.ua/doku.php?id=sphinx

остановился на строке этой инструкции:

 

у меня нет исходного файла "sphinx3.conf" для дальнейшей правки.

 

Кто знает как сделать или почему у меня нет этого, подскажите!

Госпаде, а почему не в тему по убиллингу.

На каррент обновитесь господи прости. Оно ж для 0.9.2

  • Like 1
Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Вхід

Уже зарегистрированы? Войдите здесь.

Войти сейчас
  • Зараз на сторінці   0 користувачів

    Немає користувачів, що переглядають цю сторінку.

×
×
  • Створити нове...