Question

У меня есть файл с одним столбцом. Как удалить повторяющиеся строки в файле?

Vinay Sajip · Answer 1 · 01 августа 2009

В Unix / Linux используйте команду uniq согласно ответу Дэвида Локка или sort согласно комментарию Уильяма Перселла.

Если вам нужен скрипт на Python:

lines_seen = set() # holds lines already seen
outfile = open(outfilename, "w")
for line in open(infilename, "r"):
    if line not in lines_seen: # not a duplicate
        outfile.write(line)
        lines_seen.add(line)
outfile.close()

Обновление: Комбинация sort / uniq удалит дубликаты, но вернет файл с отсортированными строками, что может или не может быть тем, что вы хотите. Сценарий Python выше не будет переупорядочивать строки, а просто удалит дубликаты. Конечно, чтобы выполнить приведенный выше сценарий для сортировки, просто опустите outfile.write(line) и вместо этого сразу же после цикла выполните outfile.writelines(sorted(lines_seen)).

David Locke · Answer 2 · 01 августа 2009

Если вы используете * nix, попробуйте выполнить следующую команду:

sort <file name> | uniq

marcell · Answer 3 · 01 августа 2009

uniqlines = set(open('/tmp/foo').readlines())

это даст вам список уникальных строк.

записать это обратно в какой-нибудь файл так же просто, как:

bar = open('/tmp/bar', 'w').writelines(set(uniqlines))

bar.close()

Arthur M · Answer 4 · 31 марта 2015

Это перефразировка того, что уже было сказано здесь - вот что я использую.

import optparse

def removeDups(inputfile, outputfile):
        lines=open(inputfile, 'r').readlines()
        lines_set = set(lines)
        out=open(outputfile, 'w')
        for line in lines_set:
                out.write(line)

def main():
        parser = optparse.OptionParser('usage %prog ' +\
                        '-i <inputfile> -o <outputfile>')
        parser.add_option('-i', dest='inputfile', type='string',
                        help='specify your input file')
        parser.add_option('-o', dest='outputfile', type='string',
                        help='specify your output file')
        (options, args) = parser.parse_args()
        inputfile = options.inputfile
        outputfile = options.outputfile
        if (inputfile == None) or (outputfile == None):
                print parser.usage
                exit(1)
        else:
                removeDups(inputfile, outputfile)

if __name__ == '__main__':
        main()

MLSC · Answer 5 · 07 июня 2014

Вы можете сделать:

import os
os.system("awk '!x[$0]++' /path/to/file > /path/to/rem-dups")

Здесь вы используете bash в python:)

У вас есть и другой способ:

with open('/tmp/result.txt') as result:
        uniqlines = set(result.readlines())
        with open('/tmp/rmdup.txt', 'w') as rmdup:
            rmdup.writelines(set(uniqlines))

Rahul Patil · Answer 6 · 15 сентября 2013

лайнеры Python One:

python -c "import sys; lines = sys.stdin.readlines(); print ''.join(sorted(set(lines)))" < InputFile > OutputFile

shahjapan · Answer 7 · 01 августа 2009

получить все ваши строки в списке и сделать набор строк, и все готово. например,

>>> x = ["line1","line2","line3","line2","line1"]
>>> list(set(x))
['line3', 'line2', 'line1']
>>>

и запишите содержимое обратно в файл.

Francisco Duluc · Answer 8 · 10 мая 2018

Посмотрите на скрипт, который я создал, чтобы удалить дубликаты электронных писем из текстовых файлов. Надеюсь, это поможет!

# function to remove duplicate emails
def remove_duplicate():
    # opens emails.txt in r mode as one long string and assigns to var
    emails = open('emails.txt', 'r').read()
    # .split() removes excess whitespaces from str, return str as list
    emails = emails.split()
    # empty list to store non-duplicate e-mails
    clean_list = []
    # for loop to append non-duplicate emails to clean list
    for email in emails:
        if email not in clean_list:
            clean_list.append(email)
    return clean_list
    # close emails.txt file
    emails.close()
# assigns no_duplicate_emails.txt to variable below
no_duplicate_emails = open('no_duplicate_emails.txt', 'w')

# function to convert clean_list 'list' elements in to strings
for email in remove_duplicate():
    # .strip() method to remove commas
    email = email.strip(',')
    no_duplicate_emails.write(f"E-mail: {email}\n")
# close no_duplicate_emails.txt file
no_duplicate_emails.close()

All Іѕ Vаиітy · Answer 9 · 27 января 2017

добавив к ответу @David Locke, с * nix системами вы можете запустить

sort -u messy_file.txt > clean_file.txt

, который создаст clean_file.txt удаление дубликатов в алфавитном порядке.

Torkoal · Answer 10 · 28 февраля 2017

Если кто-то ищет решение, которое использует хэширование и выглядит немного более кричащим, я сейчас использую следующее:

def remove_duplicate_lines(input_path, output_path):

    if os.path.isfile(output_path):
        raise OSError('File at {} (output file location) exists.'.format(output_path))

    with open(input_path, 'r') as input_file, open(output_path, 'w') as output_file:
        seen_lines = set()

        def add_line(line):
            seen_lines.add(line)
            return line

        output_file.writelines((add_line(line) for line in input_file
                                if line not in seen_lines))

Эта функция не совсем эффективна, поскольку хэш вычисляется дважды, однако я уверен, что значение кэшируется.

Как я могу удалить дубликаты строк из файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу удалить дубликаты строк из файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов