У меня есть файл JSON, который, к сожалению, содержит нежелательный текст перед каждой строкой:
2019-07-02T22:53:16.848Z LOGFILE {"key":{"host":"example1.net","srcIP":"1.0.0.0","dstIp":"2.0.0.0"},"count":4,"last_seen":"2019-07-02T22:48:15.362Z"}
2019-07-02T22:53:16.937Z LOGFILE {"key":{"host":"example2.net","srcIP":"1.0.0.1","dstIp":"2.0.0.1"},"count":2,"last_seen":"2019-07-02T22:53:07.018Z"}
......
Я хотел бы загрузить этот файл следующим образом:
from pyspark.sql import SparkSession, SQLContext
spark = SparkSession \
.builder \
.appName("LogParser") \
.getOrCreate()
sc = spark.SparkContext()
sqlContext = SQLContext(sc)
df = sqlContext.read.json('log_sample.json')
, но мне нужноспособ удалить этот нежелательный текст, например, 2019-07-02T22:53:16.848Z LOGFILE
, чтобы сначала сделать его допустимым JSON.Не могли бы вы пролить свет на то, как применить регулярное выражение, прежде чем я смогу позвонить sqlContext.read.json()
?В противном случае он будет жаловаться на это как _corrupt_record
.Большое спасибо!