Question

Я должен сделать проект класса для предмета интеллектуального анализа данных. Моя тема будет посвящена анализу данных stackoverflow для популярных тем.

Итак, я скачал данные с здесь , но набор данных настолько велик (размер posts.xml составляет 3 ГБ), что я не могу обработать его на своем компьютере.

Итак, что вы предлагаете, является ли AWS для обработки данных хорошим вариантом или не стоит?

У меня нет опыта работы с AWS, так как AWS может помочь мне с моим школьным проектом? Как бы вы пошли об этом?

ОБНОВЛЕНИЕ 1

Итак, моя обработка данных будет в 3 этапа:
1. Преобразовать XML (из дампа so.com) в .ARFF (для weka jar),
2. Мои данные, используя algos in weka,
3. Преобразуйте выходные данные в формат GraphML, который будет прочитан библиотекой prefuse для визуализации.

Итак, где здесь AWS? Я поддерживаю две функции в AWS, которые могут мне помочь:
1. EC2 и
2. Эластичный MapReduce,
но я не уверен, как mapreduce работает и как я могу использовать его в своем проекте. Можно я?

drxzcl · Answer 1 · 22 октября 2010

Вы можете рассматривать EC2 (часть AWS, которую вы бы использовали для выполнения реальных вычислений) как не что иное, как способ арендовать компьютеры программно или через простой веб-интерфейс.Если вам нужно много машин, и вы собираетесь использовать их в течение короткого периода времени, то, вероятно, вам подойдет AWS.Однако волшебной пули нет.Вам все равно придется выбрать правильное программное обеспечение для установки на них, загрузить данные либо в тома EBS, либо в S3 и все другие скучные детали.

Также следует помнить, что экземпляры и хранилище EC2 относительно дороги.Будьте готовы заплатить в 5-10 раз больше, чем заплатили бы, если бы вы действительно владели машиной / дисками и использовали ее, скажем, 3 года.

Что касается вашей проблемы, я искренне сомневаюсь, что современный компьютер не способен обрабатыватьXML-файл объемом 3 гигабайта.Фактически, я только что проиндексировал весь файл posts.xml переполнения стека в SOLR на своей рабочей станции, и все прошло гладко.Вы используете SAX-подобный парсер?Если нет, то это поможет вам больше, чем все облачные сервисы вместе взятые.

Till · Answer 2 · 24 октября 2010

Звучит как интересный проект или, по крайней мере, отличный повод, чтобы войти в контакт с новой технологией - хотелось бы, чтобы подобные вещи были, когда я пошел в школу.В большинстве случаев AWS предлагает вам простой сервер, поэтому очевидный вопрос заключается в том, решили ли вы, как вы хотите обрабатывать свои данные?Например, хотите ли вы просто запустить сценарий оболочки на .xml или использовать hadoop и т. Д .?

Прелесть AWS в том, что вы можете получить всю необходимую емкость - напотребность.Например, в вашем случае вам, вероятно, не нужно многократные экземпляры, только один сложный экземпляр.И вам не нужно платить за корневой сервер в течение всего месяца или даже недели, если вам нужен сервер только на несколько часов.

Если вы сообщите нам немного больше о том, как вы хотитедля обработки данных, может быть, мы можем помочь в дальнейшем.

Как работает AWS для Data mining для школьного проекта?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как работает AWS для Data mining для школьного проекта?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов