Question

У меня проблема с алгоритмом. Ребята, вы мне поможете?

У меня есть файл, который огромен и поэтому не может быть загружен сразу. Существуют повторяющиеся данные (общие данные, могут быть строки). Мне нужно удалить дубликаты.

bugs_ · Answer 1 · 22 мая 2011

Одно простое, но медленное решение читается как 1-й гигабит в HashSet. Прочитайте последовательный остаток файла и удалите дублирующиеся строки, которые находятся в файле. Чем читать 2-й гигабайт в памяти (hashset) и удалять дубликаты в файлах и снова, и снова ... Его довольно легко программировать, и если вы хотите сделать это только один раз, этого может быть достаточно.

ratchet freak · Answer 2 · 22 мая 2011

вы можете вычислить хеш для каждой записи и сохранить его на карте>

, прочитав его в файле, строящем карту, и если вы обнаружите, что HashKey существует на карте, вы пытаетесь найти положение для двойной проверки (иесли не равно, добавьте местоположение к отображенному набору)

fmucar · Answer 3 · 22 мая 2011

В зависимости от того, как ввод размещен в файле;если каждая строка может быть представлена данными строки;

Другим способом является использование сервера базы данных, вставка данных в таблицу базы данных со столбцом уникального значения, чтение из файла и вставка в базу данных.В конце база данных будет содержать все уникальные строки / строки.

bugs_ · Answer 4 · 22 мая 2011

Второй раствор:

Создать новый файл, в котором вы пишете пары
Чем вы будете использовать классическую сортировку больших файлов по String (Сортировка больших файлов = сортировка мелких частей файла в памяти, а затем объединение их вместе) - при этом вы удалите дубликаты
А затем восстановить исходный порядок = вы снова отсортируете его, но в соответствии с «Позицией в исходном файле»

Удалить дубликаты данных в файле

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить дубликаты данных в файле

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы