Есть ли способ написать пример игрушечного Mahout, который не использует файлы последовательности, а просто набор векторов?
Я пытаюсь узнать о мерах расстояния и хочу провести кластеризацию helloworld на основе меры расстояния. Я бы предпочел не разбрасывать его файлами последовательности:
public static void main(String[] args) {
Vector v1 = toVector("java is very good");
Vector v2 = toVector("java is very bad");
double distance = new CosineDistanceMeasure().distance(v1, v2);
System.out.println("DistanceMeasureMain.main() distance is "
+ distance);
// TODO: run KMeansDriver without sequence files if possible
}
private static Vector toVector(String string) {
String[] words = string.split("\\s");
Vector v = new SequentialAccessSparseVector(Integer.MAX_VALUE );
int i = 0;
for (String word : words) {
v.set(word.hashCode(), 1);
}
return v;
}