У меня большой набор данных, который я хочу импортировать в блоки данных, чтобы провести некоторую аналитику, используя scala. Набор данных доступен по этой ссылке: https://drive.google.com/open?id=1g4YYALk3nArN8bX2uFS70IpbdSf_Efqj
Я хочу импортировать этот набор данных таким образом, чтобы идентификатор документа находился в первом столбце, а другие тестовые данные - в другом. колонка.
Но когда я импортирую данные, используя следующий код, это выглядит так:
val df = spark.read.text("FileStore/tables/plot_summaries.txt")
df.select("value").show()
Может ли кто-нибудь помочь мне импортировать это правильно? Любая помощь будет высоко ценится. Спасибо