У меня чрезвычайно большой набор данных, хранящихся в json, который слишком велик для загрузки в память.Поля json содержат данные о пользователях и некоторые метаданные - однако, есть некоторые дубликаты.Я хотел бы просмотреть этот файл и создать его, объединяя дубликаты определенным образом.
Однако я не уверен, что лучше всего делать это.Я думал об использовании фильтра Блума, но фильтр Блума не даст мне знать, что является дубликатом из , поэтому я не могу точно слить.Есть ли что-то, что я мог бы прочитать / увидеть о том, что является лучшей практикой для чего-то подобного?Каковы некоторые отраслевые стандарты?Все это нужно сделать на python.