Question

Я пишу программу на Python, чтобы сканировать статьи по темам, которые меня интересуют. Я хочу отфильтровать предложения, относящиеся к топам c из многих статей, а затем создать резюме.

Я использовал регулярное выражение, но часто пропускал предложение, если оно не использовало ключевые слова. Хуже того, я часто получаю только вопросы, касающиеся моих ключевых слов, опуская наиболее важные ответы.

Например, если меня интересует «Трамп» в статье ниже:

"... Как вы относитесь к внешней политике Трампа? Я не думаю, что кто-то может дать четкий ответ, но я думаю, что он, скорее всего, сделает все возможное, чтобы в первую очередь сдержать проблему общественного c здоровья ... ... "

Используя« Trump »в качестве ключевых слов с помощью Regex, я получаю только вопрос, а не ответ в следующем предложении.

Какие методы я могу использовать для выбора вся соответствующая информация? Открытость для методов обработки естественного языка, в идеале доступная из пакетов с открытым исходным кодом, может помочь мне в этом?

Не обязательно быть идеальным решением. Спасибо!

Tenacious B · Answer 1 · 05 мая 2020

Я бы начал с пакета selenium или запросов / urllib + beautifulsoup4.

Если вы пытаетесь сравнить несколько сайтов, вам понадобится индивидуальный парсер для каждого сайта.

Если вам нужна помощь с конкретным сайтом c, дайте мне знать.

Как извлечь релевантную информацию из статьи, используя Python? НЛП + RegEX?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь релевантную информацию из статьи, используя Python? НЛП + RegEX?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов