Как извлечь релевантную информацию из статьи, используя Python? НЛП + RegEX? - PullRequest
0 голосов
/ 05 мая 2020

Я пишу программу на Python, чтобы сканировать статьи по темам, которые меня интересуют. Я хочу отфильтровать предложения, относящиеся к топам c из многих статей, а затем создать резюме.

Я использовал регулярное выражение, но часто пропускал предложение, если оно не использовало ключевые слова. Хуже того, я часто получаю только вопросы, касающиеся моих ключевых слов, опуская наиболее важные ответы.

Например, если меня интересует «Трамп» в статье ниже:

"... Как вы относитесь к внешней политике Трампа? Я не думаю, что кто-то может дать четкий ответ, но я думаю, что он, скорее всего, сделает все возможное, чтобы в первую очередь сдержать проблему общественного c здоровья ... ... "

Используя« Trump »в качестве ключевых слов с помощью Regex, я получаю только вопрос, а не ответ в следующем предложении.

Какие методы я могу использовать для выбора вся соответствующая информация? Открытость для методов обработки естественного языка, в идеале доступная из пакетов с открытым исходным кодом, может помочь мне в этом?

Не обязательно быть идеальным решением. Спасибо!

1 Ответ

0 голосов
/ 05 мая 2020

Я бы начал с пакета selenium или запросов / urllib + beautifulsoup4.

Если вы пытаетесь сравнить несколько сайтов, вам понадобится индивидуальный парсер для каждого сайта.

Если вам нужна помощь с конкретным сайтом c, дайте мне знать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...