Я использую Databricks, и я нарушаю какое-то ограничение печати в Python. Итак, я получаю голову и хвост очень большого набора данных, но все между ними полностью отсутствует. Я изменил свой код, чтобы добавить имена файлов в список, надеясь, что это сработает, вместо того, чтобы печатать все, что явно не работает для меня. Вот мой код.
import sys, os
import pandas as pd
mylist = []
root = "/mnt/rawdata/2019/01/"
path = os.path.join(root, "targetdirectory")
for path, subdirs, files in os.walk(root):
for name in files:
mylist.append(os.path.join(path, name))
df = spark.read.load(mylist)
print(df)
Это выглядит нормально для меня, но, видимо, где-то есть проблема. Я получаю это сообщение об ошибке:
NameError: name 'df' is not defined
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
<command-2376616408575500> in <module>()
10 mylist.append(os.path.join(path, name))
11
---> 12 df.count()
13 df.show()
NameError: name 'df' is not defined
Код работает около 30 минут, а затем выдает эту ошибку. есть идеи? Спасибо за взгляд.