Question

У меня есть простой HTML-файл с именами пользователей и ссылками на их подстраницы:

<a href="/user/someUserName@domain.com">someUserName@domain.com</a>
<a href="/user/someUserName">someUserName</a>

Я использую

xpath('.//a/text()').extract_first()

для извлечения имени пользователя в виде обычного текста.

У меня проблема, когда пользователь указывает имя пользователя в форме электронного письма (см. Первый пример) - в таком случае возвращается пустой объект.

Редактировать: я только что заметил, что html недавно изменился, и я не перепроверил: <td><a href="/user/someUserName@domain.com">[email protected]</a></td>

Я извлеку из @ href.

Michael Kay · Answer 1 · 04 июня 2018

Получение дочерних элементов текстового узла (используя text()), как правило, не рекомендуется, именно по причинам, продемонстрированным здесь.С <a>content</a> вы получите «контент», с <a>content<a> вы ничего не получите, с <a>h2o</a> вы получите два текстовых узла, «h» и «o».

Используйте string () длявместо этого получите строковое значение.Строковое значение содержит объединенное содержимое всех текстовых узлов-потомков на любой глубине.(«content», «content» и «h2o» в этих трех примерах).

Единственная оговорка в том, что я не знаю Scrapy API, поэтому я не знаю, как он обрабатывает выражения XPath, которые возвращаютстроки, а не узлы.

nandal · Answer 2 · 04 июня 2018

Я использовал следующий код: -

import scrapy

inputString = '''<xmlData> 
                 <a href="/user/someUserName@domain.com">someUserName@domain.com</a>
                 <a href="/user/someUserName">someUserName</a>
                 </xmlData>'''

print scrapy.selector.Selector(text=inputString).xpath('.//a/text()').extract_first()

Вывод: -

someUserName@domain.com

Можете ли вы вставить полный код Python?Потому что код xpath работает нормально: -

scrapy.selector.Selector(text=inputString).xpath('.//a/text()').extract_first()

XPATH - / a / text (), не могу извлечь адрес электронной почты (текст)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

XPATH - / a / text (), не могу извлечь адрес электронной почты (текст)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов