почтовый идентификатор не может быть очищен - PullRequest
0 голосов
/ 05 мая 2018

Я пытаюсь очистить почтовый идентификатор с помощью Scrapy, Python и RegEx с этой страницы: https://allevents.in/bangalore/project-based-summer-training-program/1851553244864163.

Для этого я написал следующие команды, каждая из которых возвращала пустой список:

response.xpath('//a/*[@href = "#"]/text()').extract()

response.xpath('//a/@onclick').extract()

response.xpath('//a/@onclick/text()').extract()

response.xpath('//span/*[@class = ""]/a/text()').extract()

response.xpath('//a/@onclick/text()').extract()

Кроме этого, у меня был план вычистить идентификатор электронной почты из описания, используя RegEx. Для этого я написал команду, чтобы очистить описание, которое очистило все, кроме идентификатора электронной почты в конце описания:

response.xpath('//*[@property = "schema:description"]/text()').extract()

Вывод вышеуказанной команды:

[u'\n\t\t\t\t\t\t\t     "Your Future is created by what you do today Let\'s shape it With Summer Training Program \u2026\u2026\u2026 ."', u'\n', u'\nWith ever changing technologies & methodologies, the competition today is much greater than ever before. The industrial scenario needs constant technical enhancements to cater to the rapid demands.', u'\nHT India Labs is presenting Summer Training Program to acquire and clear your concepts about your respective fields. ', u'\nEnroll on ', u' and avail Early bird Discounts.', u'\n', u'\nFor Registration or Enquiry call 9911330807, 7065657373 or write us at ', u'\t\t\t\t\t\t']

1 Ответ

0 голосов
/ 05 мая 2018

У меня мало знаний об атрибуте события onclick. Я полагаю, когда он установлен на return false, запрос обычно пропускает эту часть. Однако, если вы попробуете способ, показанный ниже, вы можете получить результат, очень близкий к желаемому.

import requests
from scrapy import Selector

res = requests.get("https://allevents.in/bangalore/project-based-summer-training-program/1851553244864163")
sel = Selector(res)
for items in sel.css("div[property='schema:description']"):
    emailid = items.css("span::text").extract_first()
    print(emailid)

Выход:

htindialabsworkshops | gmail ! com
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...