Назначение уникальных идентификаторов большому набору документов - PullRequest
0 голосов
/ 14 октября 2011

По сути, мы хотим иметь возможность уникально назначать идентификаторы всем N граммам, содержащимся в большом наборе документов.Итак, если у меня есть 10 миллионов документов для обработки, я прочитал бы текст из каждого документа и получил бы N граммов (в основном, триграммы) и мог бы назначить уникальные идентификаторы для этих N-граммов.Так или иначе, мне нужно было бы хранить эти уникальные идентификаторы, чтобы я мог быстро их получить.

1 Ответ

1 голос
/ 15 октября 2011

Исходя из комментариев выше, я бы посоветовал вам просто использовать N-грамм в качестве собственного идентификатора. Таким образом, нет необходимости поддерживать отдельное сопоставление идентификаторов с N-граммами.

Например, скажем, у вас есть документ, содержащий текст "привет", который содержит триграммы "hel", "ell" и "llo" (при условии, что вы не включаете границы слов). Вместо того, чтобы сначала настроить отображение идентификатора, например 1 = "hel", 2 = "ell", 3 = "llo" и иметь подпись документа, равную множеству {1, 2, 3}, вы можете использовать N-граммы напрямую как подпись документа {"hel", "ell", "llo"}. Таким образом, вы можете даже объединить фазы сканирования и обработки в один проход документа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...