У меня есть список строк.(довольно большой список идентификаторов и строк, разбросанных в 4-5 больших файлах. около 1 ГБ каждый).Эти строки имеют следующий формат:
1, Hi
2, Hi How ru? * 1005 *
2, How ru? * 1007 *
3, где ru?
3, что это значит
3, что это значит
Теперь я хочу провести анализ текста на этих строках и хочу подготовить дендрограмму, которую я хочу отобразитьстроки следующим образом
1-Hi
2-Hi How ru? * 1019 *
----How r u?
3-Что это значит?
----what it means?
3-Где ты?
Этот вывод основан на сходстве строк, следующих за запятой после идентификатора (предположим, ID человека, который использовал эти строки) для конкретного человека.Если какой-то другой человек использовал те же слова, то он должен быть сгруппирован в соответствии с использованными им строками.
Теперь это кажется простой задачей.Но я хочу, чтобы что-то было сделано в hadoop / Mahout или что-то, что может поддерживать огромный набор данных на кластерных машинах Linux.а также как я должен подойти к этой проблеме для решения.Я уже пробовал разные подходы в Mahout, в которых я пытался создать файл последовательности и seq2sparse vectores, а затем пытался сделать кластеризацию.но это не сработало для меня.Любая помощь или указатели в направлении были бы большой помощью.
Спасибо и С уважением, Атул