Ограничение печати в Python - PullRequest
       1

Ограничение печати в Python

0 голосов
/ 12 октября 2019

Я использую Databricks, и я нарушаю какое-то ограничение печати в Python. Итак, я получаю голову и хвост очень большого набора данных, но все между ними полностью отсутствует. Я изменил свой код, чтобы добавить имена файлов в список, надеясь, что это сработает, вместо того, чтобы печатать все, что явно не работает для меня. Вот мой код.

import sys, os
import pandas as pd

mylist = []
root = "/mnt/rawdata/2019/01/"
path = os.path.join(root, "targetdirectory")
for path, subdirs, files in os.walk(root):
    for name in files:
        mylist.append(os.path.join(path, name))


df = spark.read.load(mylist)
print(df) 

Это выглядит нормально для меня, но, видимо, где-то есть проблема. Я получаю это сообщение об ошибке:

NameError: name 'df' is not defined
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<command-2376616408575500> in <module>()
     10         mylist.append(os.path.join(path, name))
     11 
---> 12 df.count()
     13 df.show()

NameError: name 'df' is not defined

Код работает около 30 минут, а затем выдает эту ошибку. есть идеи? Спасибо за взгляд.

...