Ранее у меня был похожий вопрос, который можно найти здесь , где я получил ответ, какой тип регулярного выражения мне нужен для файла журнала с многострочными операторами, такими как:
2020-04-03T14:12:24,368 DEBUG [main] blabla bla bla bla
2020-04-03T14:12:24,371 DEBUG [main] bla bla bla bla
2020-04-03T14:12:24,348 DEBUG [Thread-2] multiline log line bla bla
bla bla bla
bla bla
blablabla
2020-04-03T14:12:24,377 DEBUG [main] blabla bla bla bla
С python re я смог разделить файл на список с помощью регулярных выражений. Однако файлы журнала у меня очень большие, и я хочу загрузить их в PySpark dataframe / RDD.
Можно прочитать весь файл в PySpark, но как тогда разделить RDD на одну строку, используя только встроенные функции PySpark, не разбивая его на список в python?
playData = sc.textFile('logfile.log', use_unicode=False)
print(type(temp_log_file))
# Output RDD that contains a single string.
<class 'pyspark.rdd.RDD'>