Pandas read_csv BZ2 Файл всегда включает имя файла - PullRequest
0 голосов
/ 21 апреля 2020

Каждый раз, когда я загружаю файл .bz2 в кадр данных Pandas, я получаю имя файла в качестве первого столбца первой строки кадра данных. Я использую tar для сжатия файлов. Я написал следующий something.txt файл:

1  2  3  4   5
2  3  4  5   6
6  7  8  9  10

Я сжимаю его через tar -cvjf something.txt.bz2 something.txt. Затем я распаковываю данные и перемещаю их в безопасное местоположение файла:

tar -xvjf something.txt.bz2 
mv something.txt something.txt.2

Теперь я загружаю данные в сценарий python тремя различными способами:

>>> data1 = pd.read_csv("something.txt")
>>> data2 = pd.read_csv("something.txt.2")
>>> data3 = pd.read_csv("something.txt.bz2")

и вот что я получаю, когда снова читаю эти данные:

>>> data1
   1  2  3  4   5
0  2  3  4  5   6
1  6  7  8  9  10
>>> data2
   1  2  3  4   5
0  2  3  4  5   6
1  6  7  8  9  10
>>> data3
   something.txt    2    3    4     5
0            2.0  3.0  4.0  5.0   6.0
1            6.0  7.0  8.0  9.0  10.0
2            NaN  NaN  NaN  NaN   NaN

Кто-нибудь знает, почему это происходит ???

...