Импорт неструктурированных данных в hadoop - PullRequest
0 голосов
/ 11 марта 2020

Как мы можем импортировать неструктурированные и полуструктурированные данные в Had oop? Легко импортировать в структурированные данные, потому что я могу напрямую импортировать их из MySQL, используя Sq oop. Но что делать в случае неструктурированных данных?

Ответы [ 2 ]

1 голос
/ 12 марта 2020

Вы просто загружаете его в HDFS через API файловой системы

, например hadoop fs -put something.ext /tmp

То же самое относится и к другим блочным хранилищам. Это не действует по-другому. Единственное, что добавляет HDFS, это то, что вам нужно подумать о том, как вы будете анализировать файлы обратно после того, как они будут разделены между датодами

0 голосов
/ 12 марта 2020

Существует несколько способов импорта неструктурированных данных в Had oop, в зависимости от использования.

  1. Использование команд оболочки HDFS, таких как put или copyFromLocal, для перемещения плоских файлов в HDFS , Для получения дополнительной информации см. Руководство по оболочке файловой системы.

  2. Использование WebHDFS REST API для интеграции приложений. API REST WebHDFS

  3. Использование Apache Flume. Это распределенная, надежная и доступная система для эффективного сбора, агрегирования и перемещения больших объемов данных из множества различных источников в централизованное хранилище данных, такое как HDFS. Несмотря на то, что исторически многие случаи использования Flume связаны со сбором / агрегацией данных журнала, Flume можно использовать вместе с Kafka и превратить себя в конвейер обработки событий в реальном времени.

  4. Использование Шторм, универсальная система обработки событий. В топологии, состоящей из болтов и изливов, она может использоваться для встраивания неструктурированных данных на основе событий в Had oop

  5. Потоковый компонент Spark предлагает другую альтернативу проглатыванию неструктурированных в реальном времени данные в HDFS. Хотя его модель обработки сильно отличается от Storm. В то время как Strom обрабатывает входящее событие по одному, потоковая передача Spark фактически группирует события, поступающие в течение короткого промежутка времени, перед их обработкой. Это называется мини-партия. Разумеется, потоковая передача Spark выполняется на базе вычислительного механизма Spark Core, который, как утверждается, в 100 раз быстрее MapReduce в памяти и в 10 раз быстрее на диске.

...