Java или Python распределенная вычислительная работа (на студенческий бюджет)? - PullRequest
5 голосов
/ 16 мая 2010

У меня есть большой набор данных (около 40G), который я хочу использовать для некоторой НЛП (в значительной степени смущающе параллельной) на нескольких компьютерах в лаборатории, к которым у меня нет есть root-доступ, и только 1G пользовательского пространства. Я экспериментировал с hadoop, но, конечно, он был мертв в воде - данные хранятся на внешнем жестком диске USB, и я не могу загрузить их в dfs из-за ограничения пространства на диске 1G. Я искал пару опций на основе Python (поскольку я бы предпочел использовать NLTK вместо lingpipe Java, если я могу помочь), и кажется, что параметры распределенных вычислений выглядят так:

  • IPython
  • DISCO

После моего опыта в hadoop я стараюсь сделать правильный выбор - любая помощь в том, что может быть более уместным, будет принята с благодарностью.

Amazon EC2 и т. Д. На самом деле не вариант, так как у меня почти нет бюджета.

Ответы [ 4 ]

3 голосов
/ 16 мая 2010

Поговорите с отделом информационных технологий в вашей школе (особенно если вы учитесь в колледже), если я готов поспорить, что они будут рады предоставить вам больше места на диске.

1 голос
/ 16 мая 2010

Обязательно поговорите с отделом информационных технологий в вашей школе. Не стоит использовать компьютерные ресурсы, которые вам не принадлежат.

Я обнаружил JPPF , что позволяет запускать приложения с большими требованиями к вычислительной мощности на любом количестве компьютеров. Я не уверен, нужно ли вам устанавливать программное обеспечение на клиентские машины, но на клиентских машинах должны быть открыты определенные порты.

1 голос
/ 16 мая 2010

нет реальных ответов;Я бы поставил это как комментарий, но на этом сайте вы вынуждены отвечать, только если вы все еще noob

, если он действительно такой же параллельный, как и всего пара компьютеров, можетВы не делите набор данных вручную раньше времени?

Вы подтвердили, что не будет брандмауэра или чего-либо подобного, что в любом случае не позволит вам использовать нечто подобное?1 ГБ пользовательского пространства, но, если Linux, как насчет / tmp?(если Windows, как насчет% temp%?)

0 голосов
/ 17 мая 2010

Если больше ресурсов в вашем вычислительном отделе бесполезно, вам придется подумать о том, чтобы разбить ваш набор данных на управляемые куски, прежде чем вы начнете над ним работать, и сведите результаты к значимому набору.

Больше ресурсов от ИТ - путь.

Удачи!

Ben

...