Question

У меня чрезвычайно большой набор данных, хранящихся в json, который слишком велик для загрузки в память.Поля json содержат данные о пользователях и некоторые метаданные - однако, есть некоторые дубликаты.Я хотел бы просмотреть этот файл и создать его, объединяя дубликаты определенным образом.

Однако я не уверен, что лучше всего делать это.Я думал об использовании фильтра Блума, но фильтр Блума не даст мне знать, что является дубликатом из , поэтому я не могу точно слить.Есть ли что-то, что я мог бы прочитать / увидеть о том, что является лучшей практикой для чего-то подобного?Каковы некоторые отраслевые стандарты?Все это нужно сделать на python.

Matt Timmermans · Answer 1 · 19 апреля 2019

Вы можете разбить записи по хеш-значениям на меньшие наборы, которые помещаются в память, удалить дубликаты в каждом наборе, а затем собрать их обратно в один файл.

Каковы некоторые жизнеспособные стратегии обнаружения дубликатов в большом файле JSON, когда вам нужно хранить дубликаты?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каковы некоторые жизнеспособные стратегии обнаружения дубликатов в большом файле JSON, когда вам нужно хранить дубликаты?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов