как найти сходство между двумя документами - PullRequest
0 голосов
/ 12 апреля 2019

Я попытался использовать функцию подобия spacy, чтобы получить наилучшее предложение в документе.Однако он не подходит для пунктов маркера, потому что он рассматривает каждый маркер как предложение, а маркеры являются неполными предложениями (например, предложение 1 «пароль должен быть длиной не менее 8 символов, предложение 2 в форме маркера« 8 символов »).знаю, что это относится к паролю и поэтому мое сходство очень низкое.

Ответы [ 2 ]

0 голосов
/ 14 апреля 2019

Пули рассматриваются, но дело в том, что он не понимает, на кого ссылаются 8 символов, поэтому я подумал о том, чтобы найти заголовок абзаца и заменить его на

Я нашел заголовки с использованием документов Python, но он не читает маркеры при чтении документа, есть ли способ прочитать его с помощью документов Python?

Можно ли как-нибудь найти заголовки абзаца в просторах?

Есть ли лучший подход к этому

0 голосов
/ 12 апреля 2019

Похоже, вам нужно больше обработать текст, прежде чем пытаться использовать сходство. Если вы хотите, чтобы маркеры считались частью предложения, вам нужно изменить свой просторный конвейер, чтобы понять, как это сделать.

...