file.tsv, импортированный с помощью pandas .read_csv () и экспортированный в file.csv с использованием .to_csv (), не совпадает по количеству строк - PullRequest
0 голосов
/ 09 января 2020

Я работаю с несколькими файлами .tsv (около 10 миллионов строк и 20 столбцов). Я использую следующий код, чтобы прочитать его и экспортировать в файл .csv.

import pandas as pd

pathToTSV = r"./file.tsv"
pathToCSV = r"./file.csv"

df = pd.read_csv(pathToTSV,sep='\t', header=0)
df.to_csv(pathToCSV, index=False)

Вывод выглядит так, как я ожидаю, то есть столбцы показывают, что мне нужно. Однако общее количество строк в .tsv и .csv не совпадает (разница в 40 000 строк). Количество строк было проверено с помощью:

wc  -l  file.csv
wc  -l  file.tsv

Не уверен, какие строки в файле .tsv вызывают проблему. Я заметил, что некоторые строки могут иметь один / несколько пробелов или несколько вкладок между столбцами. Интересно, что замена sep = '\ t' на "sep = '\ t +', по-видимому, значительно уменьшает разницу между двумя файлами. Однако я пока не смог получить идеальное соответствие (разница в 4 строки).

Любой предложение ценится заранее. Спасибо,

...