Как объединить данные из листа Excel и файлов на моем диске Google в hadoop? - PullRequest
0 голосов
/ 04 января 2019

У меня есть данные об учениках в листе Excel и соответствующие файлы на моем диске.Как мне объединить данные, используя Hadoop, чтобы я мог анализировать и получать результаты?

1 Ответ

0 голосов
/ 05 января 2019

Excel не является базой данных, поэтому его нельзя запрашивать напрямую из среды Hadoop, пока ваш файл не будет находиться в HDFS (в идеале в отдельном формате, таком как Parquet), или вместо этого вы конвертируете его в подходящую базу данных.

Вариант 1) Экспорт Excel в CSV, затем загрузка в Hadoop и переход оттуда

Вариант 2) Использование библиотек Apache POI (Java) или Pandas (Python) Excel и интеграция с Hive onваш собственный, предполагая, что вы подразумеваете здесь «Hadoop».

Вариант 3) Использование Spark-Excel


Примечание если у вас есть что-то более 100 ГБ (большое случайное число) студенческих данных, то вам лучше использовать MySQL или Postgres вместо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...