Разделить многострочный файл журнала на RDD с помощью встроенных функций PySpark - PullRequest
0 голосов
/ 23 апреля 2020

Ранее у меня был похожий вопрос, который можно найти здесь , где я получил ответ, какой тип регулярного выражения мне нужен для файла журнала с многострочными операторами, такими как:

2020-04-03T14:12:24,368 DEBUG [main] blabla bla bla bla
2020-04-03T14:12:24,371 DEBUG [main] bla bla bla bla 
2020-04-03T14:12:24,348 DEBUG [Thread-2] multiline log line bla bla 
bla bla bla
bla bla
blablabla
2020-04-03T14:12:24,377 DEBUG [main] blabla bla bla bla

С python re я смог разделить файл на список с помощью регулярных выражений. Однако файлы журнала у меня очень большие, и я хочу загрузить их в PySpark dataframe / RDD.

Можно прочитать весь файл в PySpark, но как тогда разделить RDD на одну строку, используя только встроенные функции PySpark, не разбивая его на список в python?

playData = sc.textFile('logfile.log', use_unicode=False)
print(type(temp_log_file))
# Output RDD that contains a single string. 
<class 'pyspark.rdd.RDD'>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...