Есть ли чистый Python Lucene? - PullRequest
       14

Есть ли чистый Python Lucene?

39 голосов
/ 13 января 2009

Рубиновые люди имеют Хорек . Кто-нибудь знает какие-либо подобные инициативы для Python? В настоящее время мы используем PyLucene, но я хотел бы изучить переход на чистый поиск Python.

Ответы [ 8 ]

35 голосов
/ 10 февраля 2009

Whoosh - новый проект, похожий на lucene, но чистый python.

6 голосов
/ 13 января 2009

Единственное известное мне решение для поиска на чистом питоне (без использования даже расширения C) - Nucular . Это медленно (намного медленнее, чем PyLucene) и еще нестабильно.

Мы перешли от домашнего поиска и индексации на основе PyLucene к Solr но YMMV.

4 голосов
/ 13 января 2009

Я недавно нашел pyndexter . Он предоставляет абстрактный интерфейс к различным различным полнотекстовым поисковым системам / индексаторам. И поставляется с реализацией чистого Python по умолчанию.

Эти вещи могут быть катастрофически медленными, хотя в Python.

3 голосов
/ 13 января 2009

Для некоторых приложений чистый Python переоценивается. Посмотрите на Xapian.

2 голосов
/ 28 сентября 2010

Для не чистых Python, Поиск Sphinx с Python API работает быстрее всего. По оценкам нескольких блогов, Sphinx Search работает намного быстрее, чем Lucene, использует намного меньше памяти и находится в C.

Я разрабатываю на его основе поисковую систему для нескольких документов, используя python и web2py в качестве фреймворка.

2 голосов
/ 07 февраля 2009

+ 1 к ответам Xapian и Pyndexter.

Ferret на самом деле написан на C с рубиновой привязкой сверху. Чистая поисковая система Ruby будет даже медленнее, чем чистая Python. Я бы хотел, чтобы «кто-то еще» написал слой Cython / Pyrex для интерфейса Python для Ferret, но сам этого не сделаю, потому что зачем беспокоиться, когда есть привязки Python для Xapian.

2 голосов
/ 13 января 2009

lupy был портом lucene на чистый питон. Люди с дураками предлагают использовать PyLucene . Сожалею. Возможно, вы можете использовать исходники Java в сочетании с Jython .

1 голос
/ 06 февраля 2009

После нескольких недель поиска этого я нашел хорошее решение Python: repoze.catalog . Это не только Python, потому что он использует ZODB для хранения, но мне кажется, что эта зависимость лучше, чем что-то вроде SOLR.

...