У меня есть большие файлы (hdf), которые мне нужны для поиска. Для Java я бы использовал Lucene для этого, так как это механизм индексации файлов и документов. Я не знаю, каким будет эквивалент Python.
Кто-нибудь может порекомендовать, какую библиотеку использовать для индексации большой коллекции файлов для быстрого поиска? Или это предпочтительный способ бросить свой собственный?
Я смотрел на пилицен и lupy , но оба проекта кажутся довольно неактивными и не поддерживаются, поэтому я не уверен, стоит ли на них полагаться.
Заключительные замечания:
Woosh и Pylucene кажутся многообещающими, но Woosh по-прежнему является альфа-версией, поэтому я не уверен, что хочу на нее полагаться, и у меня проблемы с компиляцией Pylucene, и реальных выпусков нет. После того, как я посмотрел немного больше на данные, это в основном числа и текстовые строки по умолчанию, так что теперь механизм индексирования мне не поможет. Надеемся, что эти библиотеки стабилизируются, и позже посетители найдут для них применение.