Маллет тема моделирования - PullRequest
6 голосов
/ 02 марта 2011

Я использовал молоток для вывода тем для текстового файла, содержащего 100 000 строк (около 34 МБ в формате молотка).Но теперь мне нужно запустить его для файла, содержащего миллион строк (около 180 МБ), и я получаю исключение java.lang.outofmemory.Есть ли способ разбить файл на более мелкие и построить модель для данных, присутствующих во всех файлах вместе взятых?заранее спасибо

Ответы [ 5 ]

6 голосов
/ 05 ноября 2012

In bin / mallet.bat увеличить значение для этой строки:

set MALLET_MEMORY=1G
1 голос
/ 09 января 2012

исключение java.lang.outofmemory происходит в основном из-за недостатка места в куче.Вы можете использовать -Xms и -Xmx, чтобы установить пространство кучи, чтобы оно больше не возвращалось.

1 голос
/ 02 марта 2011

Модель по-прежнему будет довольно большой, даже если она будет считывать ее из нескольких файлов.Вы пытались увеличить размер кучи вашего Java Java VM?

1 голос
/ 02 марта 2011

Я не уверен насчет масштабируемости Mallet для больших данных, но проект http://dragon.ischool.drexel.edu/ может хранить свои данные в постоянном хранилище на диске, поэтому может масштабироваться до неограниченных размеров корпуса (с низкой производительностью, конечно)

0 голосов
/ 06 марта 2011

Учитывая текущий объем памяти ПК, легко использовать кучу размером до 2 ГБ. Вам следует попробовать решение с одним компьютером, прежде чем рассматривать возможность использования кластера.

...