Как обрабатывать неструктурированные данные журнала, передаваемые из твиттера через Flume? - PullRequest
0 голосов
/ 14 июня 2019

Я извлек данные журнала из Twitter через Apache Flume. Здесь полученные данные находятся в файле вроде (FLUMEDATA.12334555678) this. Данные в файле выглядят следующим образом:

{ "типа": "запись", "имя": "Doc", "документ": "Adoc", "поля": [{ "Имя": "Идентификатор", "Тип": "строка"} , { "имя": "user_friends_count", "тип": [ "ИНТ", "нуль"]}, { "имя": "USER_LOCATION", "тип": [ "строка", "нуль"]}, { "название": "USER_DESCRIPTION", "тип": [ "строка", "нуль"]}, { "имя": "user_statuses_count", "тип": [ "ИНТ", "нуль"]}, { "имя ":" user_followers_count», "тип": [ "ИНТ", "нуль"]}, { "имя": "user_name", "тип": [ "строка", "нуль"]}, { "имя": "user_screen_name", "тип": [ "строка", "нуль"]}, { "имя": "created_at", "тип": [ "строка", "нуль"]}, { "имя": "текст », "тип": [ "строка", "нуль"]}, { "имя": "", "тип retweet_count": [ "длинный", "нулевой"]}, { "имя": "Процитировал", "Тип": [ "логическое", "нуль"]}, { "имя": "in_reply_to_user_id", "тип": [ "длинный", "нулевой"]}, { "имя": типа "источник", " ": [" строка», "нуль"]}, { "имя": "in_reply_to_status_id", "тип": [ "длинный", "нулевой"]}, { "имя": "media_url_https", "тип": [ "строка", "нуль"]}, { "имя": "expanded_url", "тип": [ "строка", "нулевой"]}]}'rpex & 1069155373561475073" $ MakeHouseDeepAgainbrad_k1 (2018-12-02T14: 34: 39Zj @ _raeluv22 Мне в эту погоду щебетать iPhone v https://pbs.twimg.com/tweet_video_thumb/DtZnIhkU0AA7c9B.jpg| https://twitter.com/brad_k1/status/1069155373561475073/photo/1ˋ�rpex L ^ I:

Эти данные хранятся в виде объекта Avro. Я пытаюсь прочитать и очистить данные через DataFrame в PySpark? Или есть какой-то другой способ, с помощью которого я могу получить представление об обработке этих данных?

...