Я новичок в pyspark, я пытаюсь загрузить CSV-файл, который выглядит следующим образом:
мой CSV-файл:
article_id title short_desc
33 novel findings support original asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials
мой код для чтения CSV:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType
spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
StructField("article_id", IntegerType()),
StructField("title", StringType()),
StructField("short_desc", StringType()),
StructField("article_desc", StringType())
])
peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)
peopleDF.show(6)
почему добавляется ноль?
образец набора данных, чтобы вы могли воспроизвести ту же проблему:
Пример набора данных