Я читаю CSV-файл в Spark, используя:
df = spark.read.format (file_type) .options (header = 'true', quote = '\ "', ignoreLeadingWhiteSpace = 'true ', inferSchema =' true '). load (file_location)
Когда я попробовал это с образцами данных CSV из другого источника и сделал diplsay (df), он показал аккуратно отображаемую строку заголовка, за которой следовали данные.
Когда я пробую его на моих основных данных, который имеет 40 столбцов и миллионы строк, он просто отображает первые 20 заголовков столбцов и не содержит строк данных.
Это нормальное поведение илиНеправильно ли он читается?
Обновление: я отмечу вопрос как ответивший, поскольку полезны советы, приведенные ниже.+ -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- + | �� «periodID», «DAXDate», «Название страны», «Год"," TransactionDate "," QTR "," Номер клиента "," Имя клиента "," Город клиента "," Код типа документа "," Номер заказа "," Код продукта "," Описание продукта "," Продажа UOM ", «Код суб-франшизы», «Описание суб-франшизы», «Основной код продукта», «Основное описание продукта», «Минимальный код продукта», «Минимальное описание продукта», «Номер счета-фактуры», «Дата счета-фактуры», «КлассТорговый идентификатор »,« Класс торговли »,« Регион »,« AmountCurrencyType »,« Расширенная стоимость »,« Валовые торговые продажи »,« Чистые торговые продажи »,« Итого (внешняя стандартная стоимость) »,« AdjustmentType »,« ExcludeComment "," CurrencyCode "," fxRate "," Количество "," FileName "," RecordCount "," Категория продукта "," Direct "," ProfitCenter "," ProfitCenterRegion "," ProfitCenterCountry "|+ -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Мне придется вернуться к основам предварительного просмотра CSV втекстовый редактор, чтобы узнать, каков правильный формат для этого файла, чтобы выяснить, что происходит не так.Обратите внимание, мне пришлось обновить свой код до следующего, чтобы иметь дело с разделителем каналов:
df = spark.read.format(file_type).options(header='true', quote='\"', delimiter='|',ignoreLeadingWhiteSpace='true',inferSchema='true').load(file_location)