PySolr rss dataimport - PullRequest
       15

PySolr rss dataimport

1 голос
/ 26 января 2010

Я использую PySolr для запуска поиска. Я хочу проиндексировать RSS-канал, и мне было интересно, если это возможно с помощью PySolr, и если да, как вы это делаете.

Я нашел инструкции о том, как сделать это в Solr на http://wiki.apache.org/solr/DataImportHandler#HttpDataSource_Example

, но не могу найти ничего о том, как сделать эквивалент в PySolr

Спасибо

1 Ответ

2 голосов
/ 29 января 2010

Вам, вероятно, не нужно делать эквивалент в PySolr. Если у вас уже есть Solr, индексирующий канал, как в примере, тогда вы просто используете PySolr для запроса этого индекса. Что-то вроде:

from pysolr import Solr
solr = Solr('http://localhost:8983/solr/rss/')
response = solr.search('some query string')
print response.hits
for result in response.docs:
    do_stuff_with(result)

Если вы действительно хотите сделать это со стороны Python, то вам нужно будет извлечь и проанализировать RSS там (используя другие библиотеки, например, Universal Feed Parser ); PySolr просто оборачивает взаимодействие с Solr, он не «делает» источники данных.

Возможно, вы захотите проверить Стог сена , который использует PySolr (и может использовать другие механизмы) и аккуратно абстрагирует работу по созданию записей поискового индекса и отправляет их в Solr для индексации.

...