Text Mining на огромный список строк - PullRequest
2 голосов
/ 05 сентября 2011

У меня есть список строк.(довольно большой список идентификаторов и строк, разбросанных в 4-5 больших файлах. около 1 ГБ каждый).Эти строки имеют следующий формат:

1, Hi

2, Hi How ru? * ​​1005 *

2, How ru? * ​​1007 *

3, где ru?

3, что это значит

3, что это значит

Теперь я хочу провести анализ текста на этих строках и хочу подготовить дендрограмму, которую я хочу отобразитьстроки следующим образом

1-Hi

2-Hi How ru? * ​​1019 *

 ----How r u?

3-Что это значит?

 ----what it means?

3-Где ты?

Этот вывод основан на сходстве строк, следующих за запятой после идентификатора (предположим, ID человека, который использовал эти строки) для конкретного человека.Если какой-то другой человек использовал те же слова, то он должен быть сгруппирован в соответствии с использованными им строками.

Теперь это кажется простой задачей.Но я хочу, чтобы что-то было сделано в hadoop / Mahout или что-то, что может поддерживать огромный набор данных на кластерных машинах Linux.а также как я должен подойти к этой проблеме для решения.Я уже пробовал разные подходы в Mahout, в которых я пытался создать файл последовательности и seq2sparse vectores, а затем пытался сделать кластеризацию.но это не сработало для меня.Любая помощь или указатели в направлении были бы большой помощью.

Спасибо и С уважением, Атул

1 Ответ

2 голосов
/ 05 сентября 2011

Я думаю, что вам действительно нужна иерархическая кластеризация.Для Mahout была предложена одна реализация , другая также реализована в Shogun Toolbox (также предназначенном для крупномасштабных вычислений).Но трудно гарантировать, что это будет работать, потому что ввод кажется трудным.

...