Пишите только полезные данные в hdfs - PullRequest
0 голосов
/ 10 декабря 2018

С моим курсом в универе я должен создать небольшой проект «больших данных».Для этого я собираю данные из API и записываю их в файл, каждый новый набор данных добавляется в этот файл.Производитель кафки собирает эти данные, и я настроил поток, чтобы записать их в HDFS.Он работает нормально, но я получаю информацию, которую не хочу

{"schema":{"type":"string","optional":false},"payload":"reak - Scan|9926110|1497381796|Roku Stick - A7171G046923|episode|97|1497386716"}

Мне нужна только полезная нагрузка, поскольку я хотел бы импортировать этот набор данных в куст.Также в настоящее время он создает новый файл для каждой новой строки.Есть ли способ иметь один файл в формате hdf, который расширяется при появлении новой записи?

Спасибо за любую помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...