Question

Учитывая входной файл текстовых строк, я хочу, чтобы дубликаты были идентифицированы и удалены. Пожалуйста, покажите простой фрагмент C #, который выполняет это.

Darin Dimitrov · Answer 1 · 07 августа 2009

Для небольших файлов:

string[] lines = File.ReadAllLines("filename.txt");
File.WriteAllLines("filename.txt", lines.Distinct().ToArray());

Jon Skeet · Answer 2 · 07 августа 2009

Это должно сделать (и скопировать с большими файлами).

Обратите внимание, что удаляются только дубликаты последовательных строк, т.е.

a
b
b
c
b
d

закончится как

a
b
c
b
d

Если вы не хотите, чтобы где-либо дублировались, вам нужно сохранить набор линий, которые вы уже видели.

using System;
using System.IO;

class DeDuper
{
    static void Main(string[] args)
    {
        if (args.Length != 2)
        {
            Console.WriteLine("Usage: DeDuper <input file> <output file>");
            return;
        }
        using (TextReader reader = File.OpenText(args[0]))
        using (TextWriter writer = File.CreateText(args[1]))
        {
            string currentLine;
            string lastLine = null;

            while ((currentLine = reader.ReadLine()) != null)
            {
                if (currentLine != lastLine)
                {
                    writer.WriteLine(currentLine);
                    lastLine = currentLine;
                }
            }
        }
    }
}

Обратите внимание, что это предполагает Encoding.UTF8, и что вы хотите использовать файлы. Легко обобщить как метод, хотя:

static void CopyLinesRemovingConsecutiveDupes
    (TextReader reader, TextWriter writer)
{
    string currentLine;
    string lastLine = null;

    while ((currentLine = reader.ReadLine()) != null)
    {
        if (currentLine != lastLine)
        {
            writer.WriteLine(currentLine);
            lastLine = currentLine;
        }
    }
}

(Обратите внимание, что это ничего не закрывает - вызывающий должен сделать это.)

Вот версия, которая удалит все дубликаты, а не только последовательные:

static void CopyLinesRemovingAllDupes(TextReader reader, TextWriter writer)
{
    string currentLine;
    HashSet<string> previousLines = new HashSet<string>();

    while ((currentLine = reader.ReadLine()) != null)
    {
        // Add returns true if it was actually added,
        // false if it was already there
        if (previousLines.Add(currentLine))
        {
            writer.WriteLine(currentLine);
        }
    }
}

Steve · Answer 3 · 07 августа 2009

Вот потоковый подход, который требует меньше затрат, чем чтение всех уникальных строк в памяти.

    var sr = new StreamReader(File.OpenRead(@"C:\Temp\in.txt"));
    var sw = new StreamWriter(File.OpenWrite(@"C:\Temp\out.txt"));
    var lines = new HashSet<int>();
    while (!sr.EndOfStream)
    {
        string line = sr.ReadLine();
        int hc = line.GetHashCode();
        if(lines.Contains(hc))
            continue;

        lines.Add(hc);
        sw.WriteLine(line);
    }
    sw.Flush();
    sw.Close();
    sr.Close();

Kelly Gendron · Answer 4 · 07 августа 2009

Для длинных файлов (и непоследовательных дубликатов) я копировал бы файлы построчно, создавая таблицу поиска хеша // позиции по мере продвижения.

Поскольку каждая строка копируется, проверьте хэшированное значение, если есть двойное столкновение, проверьте, что строка одинакова, и перейдите к следующей. (

Стоит только для довольно больших файлов.

Deepak · Answer 5 · 14 апреля 2016

Я новичок в .net и написал что-то более простое, возможно, не очень эффективное. Пожалуйста, не стесняйтесь делиться своими мыслями.

class Program
{
    static void Main(string[] args)
    {
        string[] emp_names = File.ReadAllLines("D:\\Employee Names.txt");
        List<string> newemp1 = new List<string>();

        for (int i = 0; i < emp_names.Length; i++)
        {
            newemp1.Add(emp_names[i]);  //passing data to newemp1 from emp_names
        }

        for (int i = 0; i < emp_names.Length; i++)
        {
            List<string> temp = new List<string>();
            int duplicate_count = 0;

            for (int j = newemp1.Count - 1; j >= 0; j--)
            {
                if (emp_names[i] != newemp1[j])  //checking for duplicate records
                    temp.Add(newemp1[j]);
                else
                {
                    duplicate_count++;
                    if (duplicate_count == 1)
                        temp.Add(emp_names[i]);
                }
            }
            newemp1 = temp;
        }
        string[] newemp = newemp1.ToArray();  //assigning into a string array
        Array.Sort(newemp);
        File.WriteAllLines("D:\\Employee Names.txt", newemp); //now writing the data to a text file
        Console.ReadLine();
    }
}

Удалить дубликаты строк из текстового файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить дубликаты строк из текстового файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы