Question

У меня есть большой набор данных (около 40G), который я хочу использовать для некоторой НЛП (в значительной степени смущающе параллельной) на нескольких компьютерах в лаборатории, к которым у меня нет есть root-доступ, и только 1G пользовательского пространства. Я экспериментировал с hadoop, но, конечно, он был мертв в воде - данные хранятся на внешнем жестком диске USB, и я не могу загрузить их в dfs из-за ограничения пространства на диске 1G. Я искал пару опций на основе Python (поскольку я бы предпочел использовать NLTK вместо lingpipe Java, если я могу помочь), и кажется, что параметры распределенных вычислений выглядят так:

IPython
DISCO

После моего опыта в hadoop я стараюсь сделать правильный выбор - любая помощь в том, что может быть более уместным, будет принята с благодарностью.

Amazon EC2 и т. Д. На самом деле не вариант, так как у меня почти нет бюджета.

swanson · Answer 1 · 16 мая 2010

Поговорите с отделом информационных технологий в вашей школе (особенно если вы учитесь в колледже), если я готов поспорить, что они будут рады предоставить вам больше места на диске.

Gilbert Le Blanc · Answer 2 · 16 мая 2010

Обязательно поговорите с отделом информационных технологий в вашей школе. Не стоит использовать компьютерные ресурсы, которые вам не принадлежат.

Я обнаружил JPPF , что позволяет запускать приложения с большими требованиями к вычислительной мощности на любом количестве компьютеров. Я не уверен, нужно ли вам устанавливать программное обеспечение на клиентские машины, но на клиентских машинах должны быть открыты определенные порты.

frymaster · Answer 3 · 16 мая 2010

нет реальных ответов;Я бы поставил это как комментарий, но на этом сайте вы вынуждены отвечать, только если вы все еще noob

, если он действительно такой же параллельный, как и всего пара компьютеров, можетВы не делите набор данных вручную раньше времени?

Вы подтвердили, что не будет брандмауэра или чего-либо подобного, что в любом случае не позволит вам использовать нечто подобное?1 ГБ пользовательского пространства, но, если Linux, как насчет / tmp?(если Windows, как насчет% temp%?)

Ben Hughes · Answer 4 · 17 мая 2010

Если больше ресурсов в вашем вычислительном отделе бесполезно, вам придется подумать о том, чтобы разбить ваш набор данных на управляемые куски, прежде чем вы начнете над ним работать, и сведите результаты к значимому набору.

Больше ресурсов от ИТ - путь.

Удачи!

Ben

Java или Python распределенная вычислительная работа (на студенческий бюджет)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java или Python распределенная вычислительная работа (на студенческий бюджет)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы