Я работаю с несколькими файлами .tsv (около 10 миллионов строк и 20 столбцов). Я использую следующий код, чтобы прочитать его и экспортировать в файл .csv.
import pandas as pd
pathToTSV = r"./file.tsv"
pathToCSV = r"./file.csv"
df = pd.read_csv(pathToTSV,sep='\t', header=0)
df.to_csv(pathToCSV, index=False)
Вывод выглядит так, как я ожидаю, то есть столбцы показывают, что мне нужно. Однако общее количество строк в .tsv и .csv не совпадает (разница в 40 000 строк). Количество строк было проверено с помощью:
wc -l file.csv
wc -l file.tsv
Не уверен, какие строки в файле .tsv вызывают проблему. Я заметил, что некоторые строки могут иметь один / несколько пробелов или несколько вкладок между столбцами. Интересно, что замена sep = '\ t' на "sep = '\ t +', по-видимому, значительно уменьшает разницу между двумя файлами. Однако я пока не смог получить идеальное соответствие (разница в 4 строки).
Любой предложение ценится заранее. Спасибо,