Я настраиваю автоматическое c задание, которое должно анализировать файлы csv с ftp-сайта, каждый файл содержит несколько 10 тысяч строк. Я хочу предварительно обработать каталог, чтобы удалить повторяющиеся файлы, прежде чем анализировать оставшиеся файлы. Проблема в том, что дублирующиеся файлы отправляются на ftp, но с другим порядком строк (т. Е. Те же данные, другой порядок). Это приводит к "дублированным файлам", имеющим разные хеши и побайтовое сравнение. с минимальной обработкой.
Я хочу свести манипуляции с файлами к минимуму, поэтому я попытался отсортировать CSV с помощью модуля csvsort, но это дает мне ошибку индекса: IndexError: list index out of range
. Вот соответствующий код:
from csvsort import csvsort
csvsort(input_filename=file_path,columns=[1,2])
Я попытался найти и удалить пустые строки, но это не казалось проблемой, и, как я уже сказал, я хочу свести манипуляции с файлами к минимуму, чтобы сохранить файл целостность. Более того, у меня нет контроля над созданием файлов или отправкой файлов на ftp
Я могу придумать несколько способов решения этой проблемы, но все они будут включать открытие CSV и чтение содержимого. , манипулируя им, et c. Могу ли я провести легкое сравнение файлов, игнорирующее порядок строк, или мне придется go для более тяжелой обработки?