Weka и Lucene - это два разных подхода.
Weka - это универсальный инструментарий для машинного обучения. Если вы хотите построить гибкую систему машинного обучения, и у вас есть время / энергия, и вы хотите иметь возможность вносить любые изменения, а также настраивать параметры и масштабирование не является проблемой, тогда Weka - хороший вариант .
Lucene специализируется на тексте, и вы должны пойти на это, если вы хотите иметь быстрое решение, которое может легко обрабатывать текст, искать похожие документы и обрабатывать большие объемы данных. Это не значит, что Lucene уступает, совсем наоборот, когда мы ссылаемся на текст. Таким образом, чтобы легко реализовать kNN, я бы выбрал Lucene (удачи в масштабах - kNN имеет сложность N ^ 2).