Question

У меня есть список строк.(довольно большой список идентификаторов и строк, разбросанных в 4-5 больших файлах. около 1 ГБ каждый).Эти строки имеют следующий формат:

1, Hi

2, Hi How ru? * 1005 *

2, How ru? * 1007 *

3, где ru?

3, что это значит

Теперь я хочу провести анализ текста на этих строках и хочу подготовить дендрограмму, которую я хочу отобразитьстроки следующим образом

1-Hi

2-Hi How ru? * 1019 *

 ----How r u?

3-Что это значит?

 ----what it means?

3-Где ты?

Этот вывод основан на сходстве строк, следующих за запятой после идентификатора (предположим, ID человека, который использовал эти строки) для конкретного человека.Если какой-то другой человек использовал те же слова, то он должен быть сгруппирован в соответствии с использованными им строками.

Теперь это кажется простой задачей.Но я хочу, чтобы что-то было сделано в hadoop / Mahout или что-то, что может поддерживать огромный набор данных на кластерных машинах Linux.а также как я должен подойти к этой проблеме для решения.Я уже пробовал разные подходы в Mahout, в которых я пытался создать файл последовательности и seq2sparse vectores, а затем пытался сделать кластеризацию.но это не сработало для меня.Любая помощь или указатели в направлении были бы большой помощью.

Спасибо и С уважением, Атул

Artur Nowak · Answer 1 · 05 сентября 2011

Я думаю, что вам действительно нужна иерархическая кластеризация.Для Mahout была предложена одна реализация , другая также реализована в Shogun Toolbox (также предназначенном для крупномасштабных вычислений).Но трудно гарантировать, что это будет работать, потому что ввод кажется трудным.

Text Mining на огромный список строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Text Mining на огромный список строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы