Question

По сути, мы хотим иметь возможность уникально назначать идентификаторы всем N граммам, содержащимся в большом наборе документов.Итак, если у меня есть 10 миллионов документов для обработки, я прочитал бы текст из каждого документа и получил бы N граммов (в основном, триграммы) и мог бы назначить уникальные идентификаторы для этих N-граммов.Так или иначе, мне нужно было бы хранить эти уникальные идентификаторы, чтобы я мог быстро их получить.

Jukka Zitting · Answer 1 · 15 октября 2011

Исходя из комментариев выше, я бы посоветовал вам просто использовать N-грамм в качестве собственного идентификатора. Таким образом, нет необходимости поддерживать отдельное сопоставление идентификаторов с N-граммами.

Например, скажем, у вас есть документ, содержащий текст "привет", который содержит триграммы "hel", "ell" и "llo" (при условии, что вы не включаете границы слов). Вместо того, чтобы сначала настроить отображение идентификатора, например 1 = "hel", 2 = "ell", 3 = "llo" и иметь подпись документа, равную множеству {1, 2, 3}, вы можете использовать N-граммы напрямую как подпись документа {"hel", "ell", "llo"}. Таким образом, вы можете даже объединить фазы сканирования и обработки в один проход документа.

Назначение уникальных идентификаторов большому набору документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Назначение уникальных идентификаторов большому набору документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы