При создании скребка я столкнулся с ситуацией, когда у меня есть куча ключевых слов и их слишком много для жесткого кода.Поэтому я хотел реализовать регулярное выражение, которое читает из файла «словаря», оно содержит ключевые слова, и когда сканер / скребок соответствует одному из ключевых слов на определенном веб-сайте, он очищает весь абзац, содержащий ключевые слова.
Модель кода с одним абзацем выглядит следующим образом:
for Keyword in response.xpath('//*'):
yield {
'dictA': Keyword.xpath('//p/text()[contains(..,"Specific Keyword/s")]').extract(),
}
Это то, что дает мне весь абзац, содержащийся в этом "Определенном ключевом слове".Но у меня есть, скажем, около 100 слов, которые я не хочу делать:
dictA1
.
.
.
dictA100
Это неэффективно.Как я мог пойти за этим.Как всегда подсказки и указания помогают и приветствуются.