Объединение нескольких текстовых файлов и удаление дубликатов из получающегося большого файла - PullRequest
0 голосов
/ 29 сентября 2019

Я пытался заставить это работать, но безуспешно, потому что:

Файлы, которые должны быть объединены, большие (до 20 МБ каждый);Дублирующиеся строки приходят в отдельных файлах. Вот почему мне нужно удалить его из полученного объединенного файла;

В данный момент код работает, но ничего не отображается, и он в основном объединяет файлы, не имея дело с дубликатами.

import os
import io
import pandas as pd


merged_df = pd.DataFrame()
for file in os.listdir(r"C:\Users\username\Desktop\txt"):
    if file.endswith(".txt"):
        file_path = os.path.join(r"C:\Users\username\Desktop\txt", file)
        bytes = open(file_path, 'rb').read()
        merged_df = merged_df.append(pd.read_csv(io.StringIO(
            bytes.decode('latin-1')), sep=";", parse_dates=['Data']))
        SellOutCombined = open('test.txt', 'a')
        SellOutCombined.write(merged_df.to_string())
        SellOutCombined.close()


print(len(merged_df))

Любая помощь приветствуется.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...