Есть ли способ выделить актуальные текстовые элементы в тексте? - PullRequest
0 голосов
/ 04 февраля 2020

Для моего варианта использования я хочу извлечь все объекты, которые являются темами текста. Например:

AP и Reuters утверждают, что Google разрушает малый бизнес. Совет Безопасности ООН часто выдвигал подобные обвинения в адрес «большой четверки», но теперь, возможно, потребуется принять срочные меры. Google еще не сделал заявление.

-> Google

В этом случае я могу легко извлечь AP / Reuters / Google / Big4 / UNS C et c. как именованные объекты, но я не уверен, как узнать, что Google является topi c. Вещи, которые я пробовал, включают использование текстовой категоризации и использование разных компаний в качестве классов, однако данные по каждой компании слишком малы. Кажется, что TF-IDF дает лучше, чем случайные результаты, но все еще слишком шумно. РЕДАКТИРОВАТЬ: я пытался использовать методы обобщения текста, чтобы попытаться пометить важные предложения и извлечь из них сущности. Кажется, что он имеет очевидный эффект повышения точности за счет отзыва в пропорции к объему текста, который будет обобщен. Я посмотрел на конвейер Google NLP, и им присуще существенное свойство из текста. Мне было любопытно, существует ли реализация с открытым исходным кодом, так как это может мне сильно помочь.

...