У меня есть набор данных, состоящий из миллионов примеров, где каждый пример содержит 128 непрерывных функций, классифицированных по имени. Я пытаюсь найти большую надежную базу данных / индекс для использования в качестве классификатора KNN для многомерных данных. Я попытался Классификатор IBK Weka , но он задыхается от такого большого количества данных, и даже тогда он должен быть загружен в память. Lucene , особенно через интерфейс PyLucene, будет альтернативой?
Я нашел Lire , который, похоже, использует Lucene аналогичным образом, но после просмотра кода я не уверен, как они его выполняют или же это одно и то же Я пытаюсь сделать.
Я понимаю, что Lucene разработан как инструмент индексирования текста, а не как классификатор общего назначения, но возможно ли использовать его таким образом?