Методы извлечения ключевых слов из больших документов, которые имеют отношение к набору предопределенных рекомендаций, используя NLP / Semantic Similarity - PullRequest
0 голосов
/ 26 сентября 2018

Мне нужны предложения, как извлечь ключевые слова из большого документа.Ключевые слова должны быть встроенными, что мы определили как предполагаемые результаты поиска.

Например,

Мне нужно имя владельца, где находится офис, что такое операционная отрасль, когда дается документ о компании, и определенный набор слов будет,

{владелец, директор, офис, отрасль ...} - (1)

предполагаемый результат должен быть примерно таким,

{Mr.Smith James, Main Street, Financial Banking} - (2)

Я искал метод, связанный с семантическим сходством, где предложения, содержащие слова, похожие на данный корпус (1), будет извлечен, и с использованием POS-тегов для извлечения существительных из этих предложений.

Было бы полезно, если бы были предоставлены дополнительные ресурсы, поддерживающие этот подход.

1 Ответ

0 голосов
/ 27 сентября 2018

То, что вы хотите сделать, называется Распознавание именованных сущностей .

В Python есть популярная библиотека под названием SpaCy , которую можно использовать для этого.Стандартные модели способны обнаруживать 18 различных типов объектов , что является довольно хорошим показателем.

Должны быть легко извлечены имена людей и компаний, тогда как целые адреса и отрасль могут быть более сложными.Возможно, вам придется обучать свою собственную модель этим типам сущностей.SpaCy также предоставляет API для обучения ваших собственных моделей.Пожалуйста, обратите внимание, что вам нужно довольно много тренировочных данных, чтобы получить приличные результаты.Начните с 1000 примеров для каждого типа объекта и посмотрите, достаточно ли это для ваших нужд.POS может использоваться как функция.

Если ваши данные неструктурированы, это, вероятно, один из наиболее подходящих подходов.Если у вас есть более структурированные данные, вы можете воспользоваться этим.

...