Индексирование логов чата и их поиск в Django - PullRequest
1 голос
/ 29 ноября 2011

Мое приложение Django должно иметь возможность поиска больших объемов журналов чата, которые хранятся в другой базе данных Postgres, то есть в другой, отличной от базы данных моего Django. Изначально пользователи на сайте использовали простой полнотекстовый поиск в журналах, но позже мы намерены проанализировать эти журналы с использованием NLP.

Что будет лучшим вариантом индексации в этом случае - Sphinx или Solr?

Я ищу что-то, что FOSS хорошо масштабируется, поддерживает NLP и имеет хорошие привязки Python / Django, если у кого-то из вас нет лучшего способа / инструмента для этого.

Извините, если я что-то не так понял выше. Я новичок в концепции реализации чего-либо подобного и стараюсь как можно быстрее понять их.

Ответы [ 2 ]

1 голос
/ 30 ноября 2011

Также проверьте Стог сена

0 голосов
/ 29 ноября 2011

Это не будет абсолютно безболезненно для реализации, но я думаю, что если вы хотите сделать полнотекстовый поиск, ясный ответ - это Solr / Lucene, насколько реализации с открытым исходным кодом идут.Предостережение: я не использую Solr с Python и никогда не использовал Sphinx.

Конвейер был бы чем-то вроде чтения журналов из БД, их индексации, хранения индексов на любом сервере, а затемпоиск.

Добавление дополнительных / пользовательских материалов NLP в индексатор Lucene довольно просто.

Этот поток , сравнивающий Lucene и ElasticSearch , возможно, стоит посмотреть.

...