Scrapy: Как получить адрес, используя CSS и XPath? - PullRequest
1 голос
/ 28 января 2020

Как получить адрес, используя CSS и XPath? Я пытался использовать CSS: response.css('.office-address::text').extract()

<span class="office-address" itemprop="address" itemscope="" itemtype="http://schema.org/PostalAddress">
                <span itemprop="streetAddress">
                    <span class="address-line1">5835 Post Rd.</span>

                        <span class="address-line2">Suite 217</span>
                </span>
                <span class="city-state-zip">
                    <span itemprop="addressLocality">East Greenwich</span>, <span itemprop="addressRegion">RI</span> <span itemprop="postalCode">02818</span>
                </span>
            </span>

Ответы [ 4 ]

2 голосов
/ 29 января 2020

Грязное решение с одним вкладышем XPath:

concat(//span[@class='address-line1']/text(),' ',//span[@class='address-line2']/text(),' ',//span[@itemprop='addressLocality']/text(),', ',//span[@itemprop='addressRegion']/text(),//span[@itemprop='postalCode']/text())

Выход:

"5835 Post Rd. Suite 217 East Greenwich, RI02818"
1 голос
/ 28 января 2020

Попробуйте это response.css('.office-address ::text').extract() Добавлен пробел перед ::text

0 голосов
/ 30 января 2020

Вот идея на будущее, так как идентификаторы / классы могут меняться за период:

from re import sub
from bs4 import BeautifulSoup as bs

teststr = """<span class="office-address" itemprop="address" itemscope="" itemtype="http://schema.org/PostalAddress">
                <span itemprop="streetAddress">
                    <span class="address-line1">5835 Post Rd.</span>

                        <span class="address-line2">Suite 217</span>
                </span>
                <span class="city-state-zip">
                    <span itemprop="addressLocality">East Greenwich</span>, <span itemprop="addressRegion">RI</span> <span itemprop="postalCode">02818</span>
                </span>
            </span>"""

r = bs(teststr,"lxml").getText().strip()
r = sub( r"\n", ", ", r)
r = sub( r"[, ]{2,}", ", ", r)
print ( r ) 

Результат:

5835 Post Rd., Suite 217, East Greenwich, RI 02818
0 голосов
/ 29 января 2020

Опция с CSS селекторами с копией:

address = response.css("span.address-line1::text, span.address-line2::text, span[itemprop=addressLocality]::text, span[itemprop=addressRegion]::text, span[itemprop=postalCode]::text").extract() # should return list
if address:
    address = ", ".
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...