Векторизация документов с помощью Apache Mahout - параметр MinLLR - PullRequest
1 голос
/ 14 июля 2011

Я работаю с Apache Mahout над векторизацией и кластеризацией большого количества документов (~ 500 тыс.). Работая с примерами как на веб-сайте проекта, так и в книге «Mahout in Action», я видел, как параметр minLLR seq2sparse использовался пару раз, но я не уверен, какие значения он ожидает. Существует ли какая-либо «стартовая площадка» или метод оценки достойного значения для этого параметра?

1 Ответ

2 голосов
/ 14 июля 2011

Значение LLR не нормировано, поэтому я не верю, что есть один хороший ответ.И ответ будет зависеть от того, сколько обрезки вы хотите.Значения LLR будут линейно увеличиваться с размером вашего корпуса (ну, число n-грамм).Значение по умолчанию, равное 1,0, является разумным, и я бы просто посоветовал вам найти правильное значение экспериментально, а затем масштабировать его для других входных данных линейно в зависимости от размера входных данных.

...