Question

Как мы можем импортировать неструктурированные и полуструктурированные данные в Had oop? Легко импортировать в структурированные данные, потому что я могу напрямую импортировать их из MySQL, используя Sq oop. Но что делать в случае неструктурированных данных?

cricket_007 · Answer 1 · 12 марта 2020

Вы просто загружаете его в HDFS через API файловой системы

, например hadoop fs -put something.ext /tmp

То же самое относится и к другим блочным хранилищам. Это не действует по-другому. Единственное, что добавляет HDFS, это то, что вам нужно подумать о том, как вы будете анализировать файлы обратно после того, как они будут разделены между датодами

Nabeel Raza · Answer 2 · 12 марта 2020

Существует несколько способов импорта неструктурированных данных в Had oop, в зависимости от использования.

Использование команд оболочки HDFS, таких как put или copyFromLocal, для перемещения плоских файлов в HDFS , Для получения дополнительной информации см. Руководство по оболочке файловой системы.
Использование WebHDFS REST API для интеграции приложений. API REST WebHDFS
Использование Apache Flume. Это распределенная, надежная и доступная система для эффективного сбора, агрегирования и перемещения больших объемов данных из множества различных источников в централизованное хранилище данных, такое как HDFS. Несмотря на то, что исторически многие случаи использования Flume связаны со сбором / агрегацией данных журнала, Flume можно использовать вместе с Kafka и превратить себя в конвейер обработки событий в реальном времени.
Использование Шторм, универсальная система обработки событий. В топологии, состоящей из болтов и изливов, она может использоваться для встраивания неструктурированных данных на основе событий в Had oop
Потоковый компонент Spark предлагает другую альтернативу проглатыванию неструктурированных в реальном времени данные в HDFS. Хотя его модель обработки сильно отличается от Storm. В то время как Strom обрабатывает входящее событие по одному, потоковая передача Spark фактически группирует события, поступающие в течение короткого промежутка времени, перед их обработкой. Это называется мини-партия. Разумеется, потоковая передача Spark выполняется на базе вычислительного механизма Spark Core, который, как утверждается, в 100 раз быстрее MapReduce в памяти и в 10 раз быстрее на диске.

Импорт неструктурированных данных в hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Импорт неструктурированных данных в hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы