Я использую pyspark для чтения и обработки некоторых данных из локальных .plt
файлов. Вот как выглядит файл:
Geolife trajectory
WGS 84
Altitude is in Feet
Reserved 3
0,2,255,My Track,0,0,2,8421376
0
39.984094,116.319236,0,492,39744.2451967593,2008-10-23,05:53:05
39.984198,116.319322,0,492,39744.2452083333,2008-10-23,05:53:06
39.984224,116.319402,0,492,39744.2452662037,2008-10-23,05:53:11
39.984211,116.319389,0,492,39744.2453240741,2008-10-23,05:53:16
......
Как показано выше, меня не интересуют первые 6 строк, я хочу строки, начинающиеся с 7-й строки. Поэтому я хочу использовать сеанс спарка, чтобы прочитать этот файл из 7-й строки. Вот код, который я пробовал, но не смог:
from pyspark.sql import SparkSession
session = SparkSession.builder.appName('file reader').master('local[*]').getOrCreate()
df = session.read.\
option('delimiter', ',').\
option('header', 'false').\
csv('test.plt')
df.show()
Может ли кто-нибудь дать мне совет? Спасибо за внимание.