Как работает AWS для Data mining для школьного проекта? - PullRequest
1 голос
/ 22 октября 2010

Я должен сделать проект класса для предмета интеллектуального анализа данных. Моя тема будет посвящена анализу данных stackoverflow для популярных тем.

Итак, я скачал данные с здесь , но набор данных настолько велик (размер posts.xml составляет 3 ГБ), что я не могу обработать его на своем компьютере.

Итак, что вы предлагаете, является ли AWS для обработки данных хорошим вариантом или не стоит?

У меня нет опыта работы с AWS, так как AWS может помочь мне с моим школьным проектом? Как бы вы пошли об этом?

ОБНОВЛЕНИЕ 1

Итак, моя обработка данных будет в 3 этапа:
1. Преобразовать XML (из дампа so.com) в .ARFF (для weka jar),
2. Мои данные, используя algos in weka,
3. Преобразуйте выходные данные в формат GraphML, который будет прочитан библиотекой prefuse для визуализации.

Итак, где здесь AWS? Я поддерживаю две функции в AWS, которые могут мне помочь:
1. EC2 и
2. Эластичный MapReduce,
но я не уверен, как mapreduce работает и как я могу использовать его в своем проекте. Можно я?

Ответы [ 2 ]

1 голос
/ 22 октября 2010

Вы можете рассматривать EC2 (часть AWS, которую вы бы использовали для выполнения реальных вычислений) как не что иное, как способ арендовать компьютеры программно или через простой веб-интерфейс.Если вам нужно много машин, и вы собираетесь использовать их в течение короткого периода времени, то, вероятно, вам подойдет AWS.Однако волшебной пули нет.Вам все равно придется выбрать правильное программное обеспечение для установки на них, загрузить данные либо в тома EBS, либо в S3 и все другие скучные детали.

Также следует помнить, что экземпляры и хранилище EC2 относительно дороги.Будьте готовы заплатить в 5-10 раз больше, чем заплатили бы, если бы вы действительно владели машиной / дисками и использовали ее, скажем, 3 года.

Что касается вашей проблемы, я искренне сомневаюсь, что современный компьютер не способен обрабатыватьXML-файл объемом 3 гигабайта.Фактически, я только что проиндексировал весь файл posts.xml переполнения стека в SOLR на своей рабочей станции, и все прошло гладко.Вы используете SAX-подобный парсер?Если нет, то это поможет вам больше, чем все облачные сервисы вместе взятые.

0 голосов
/ 24 октября 2010

Звучит как интересный проект или, по крайней мере, отличный повод, чтобы войти в контакт с новой технологией - хотелось бы, чтобы подобные вещи были, когда я пошел в школу.В большинстве случаев AWS предлагает вам простой сервер, поэтому очевидный вопрос заключается в том, решили ли вы, как вы хотите обрабатывать свои данные?Например, хотите ли вы просто запустить сценарий оболочки на .xml или использовать hadoop и т. Д .?

Прелесть AWS в том, что вы можете получить всю необходимую емкость - напотребность.Например, в вашем случае вам, вероятно, не нужно многократные экземпляры, только один сложный экземпляр.И вам не нужно платить за корневой сервер в течение всего месяца или даже недели, если вам нужен сервер только на несколько часов.

Если вы сообщите нам немного больше о том, как вы хотитедля обработки данных, может быть, мы можем помочь в дальнейшем.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...