У меня есть большой набор данных (около 40G), который я хочу использовать для некоторой НЛП (в значительной степени смущающе параллельной) на нескольких компьютерах в лаборатории, к которым у меня нет есть root-доступ, и только 1G пользовательского пространства.
Я экспериментировал с hadoop, но, конечно, он был мертв в воде - данные хранятся на внешнем жестком диске USB, и я не могу загрузить их в dfs из-за ограничения пространства на диске 1G.
Я искал пару опций на основе Python (поскольку я бы предпочел использовать NLTK вместо lingpipe Java, если я могу помочь), и кажется, что параметры распределенных вычислений выглядят так:
После моего опыта в hadoop я стараюсь сделать правильный выбор - любая помощь в том, что может быть более уместным, будет принята с благодарностью.
Amazon EC2 и т. Д. На самом деле не вариант, так как у меня почти нет бюджета.