Каковы некоторые жизнеспособные стратегии обнаружения дубликатов в большом файле JSON, когда вам нужно хранить дубликаты? - PullRequest
0 голосов
/ 18 апреля 2019

У меня чрезвычайно большой набор данных, хранящихся в json, который слишком велик для загрузки в память.Поля json содержат данные о пользователях и некоторые метаданные - однако, есть некоторые дубликаты.Я хотел бы просмотреть этот файл и создать его, объединяя дубликаты определенным образом.

Однако я не уверен, что лучше всего делать это.Я думал об использовании фильтра Блума, но фильтр Блума не даст мне знать, что является дубликатом из , поэтому я не могу точно слить.Есть ли что-то, что я мог бы прочитать / увидеть о том, что является лучшей практикой для чего-то подобного?Каковы некоторые отраслевые стандарты?Все это нужно сделать на python.

1 Ответ

1 голос
/ 19 апреля 2019

Вы можете разбить записи по хеш-значениям на меньшие наборы, которые помещаются в память, удалить дубликаты в каждом наборе, а затем собрать их обратно в один файл.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...