Импорт CSV в фрейм данных pyspark - PullRequest
0 голосов
/ 24 апреля 2018

Я новичок в pyspark, я пытаюсь загрузить CSV-файл, который выглядит следующим образом:

мой CSV-файл:

   article_id   title                                  short_desc                                           
    33          novel findings support original        asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials  

мой код для чтения CSV:

from pyspark.sql import SparkSession

from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType


spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
    StructField("article_id", IntegerType()),
    StructField("title", StringType()),
    StructField("short_desc", StringType()),
    StructField("article_desc", StringType())
])

peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)

peopleDF.show(6)

After Code changes

почему добавляется ноль?

образец набора данных, чтобы вы могли воспроизвести ту же проблему:

Пример набора данных

1 Ответ

0 голосов
/ 24 апреля 2018

Ячейки листа Excel, которые вы пытаетесь прочитать, имеют «объединенные ячейки».

Spark не будет читать их как объединенные ячейки, но будет выделять строки. В вашем случае столбец article_desc состоит из 5 таких ячеек по вертикали, а для остальных столбцов они пустые. Следовательно, у вас есть нулевые значения.

Если вы поместите весь контент в одну ячейку, вы сможете прочитать его без нулевых значений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...