Я пытаюсь очистить почтовый идентификатор с помощью Scrapy, Python и RegEx с этой страницы: https://allevents.in/bangalore/project-based-summer-training-program/1851553244864163.
Для этого я написал следующие команды, каждая из которых возвращала пустой список:
response.xpath('//a/*[@href = "#"]/text()').extract()
response.xpath('//a/@onclick').extract()
response.xpath('//a/@onclick/text()').extract()
response.xpath('//span/*[@class = ""]/a/text()').extract()
response.xpath('//a/@onclick/text()').extract()
Кроме этого, у меня был план вычистить идентификатор электронной почты из описания, используя RegEx. Для этого я написал команду, чтобы очистить описание, которое очистило все, кроме идентификатора электронной почты в конце описания:
response.xpath('//*[@property = "schema:description"]/text()').extract()
Вывод вышеуказанной команды:
[u'\n\t\t\t\t\t\t\t "Your Future is created by what you do today Let\'s shape it With Summer Training Program \u2026\u2026\u2026 ."', u'\n', u'\nWith ever changing technologies & methodologies, the competition today is much greater than ever before. The industrial scenario needs constant technical enhancements to cater to the rapid demands.', u'\nHT India Labs is presenting Summer Training Program to acquire and clear your concepts about your respective fields. ', u'\nEnroll on ', u' and avail Early bird Discounts.', u'\n', u'\nFor Registration or Enquiry call 9911330807, 7065657373 or write us at ', u'\t\t\t\t\t\t']