Я должен сделать проект класса для предмета интеллектуального анализа данных. Моя тема будет посвящена анализу данных stackoverflow для популярных тем.
Итак, я скачал данные с здесь , но набор данных настолько велик (размер posts.xml составляет 3 ГБ), что я не могу обработать его на своем компьютере.
Итак, что вы предлагаете, является ли AWS для обработки данных хорошим вариантом или не стоит?
У меня нет опыта работы с AWS, так как AWS может помочь мне с моим школьным проектом? Как бы вы пошли об этом?
ОБНОВЛЕНИЕ 1
Итак, моя обработка данных будет в 3 этапа:
1. Преобразовать XML (из дампа so.com) в .ARFF (для weka jar),
2. Мои данные, используя algos in weka,
3. Преобразуйте выходные данные в формат GraphML, который будет прочитан библиотекой prefuse для визуализации.
Итак, где здесь AWS? Я поддерживаю две функции в AWS, которые могут мне помочь:
1. EC2 и
2. Эластичный MapReduce,
но я не уверен, как mapreduce работает и как я могу использовать его в своем проекте. Можно я?