Question

Попытка удалить escape-символы и пробелы из списка html. Я использую normalize-space (), но не смог применить его ко всему списку. Я тестирую свой код, используя scrapy shell

scrapy shell https://universalmotors.ru/boardmotors/suzuki/suzuki-df-4-s/

<tr itemprop="additionalProperty" itemscope="" itemtype="http://schema.org/PropertyValue">
              <td class="label_table" itemprop="name">Мощность двигателя (л.с.)</td>
              <td class="value_table">
                <span itemprop="value">4</span>
              </td>
            </tr>
<tr itemprop="additionalProperty" itemscope="" itemtype="http://schema.org/PropertyValue">
              <td class="label_table" itemprop="name">Тип масла в двигателе</td>
              <td class="value_table">
                <span itemprop="value">10W-30 10W-40</span>
              </td>
            </tr>

Вот что я попробовал

[item.normalize-space() for item in response.xpath('//tr[@itemprop="additionalProperty"]').extract()]

Но я получаю ошибку

Traceback (most recent call last):
  File "<console>", line 1, in <module>
  File "<console>", line 1, in <listcomp>
AttributeError: 'str' object has no attribute 'normalize'

Работает только для

[item.strip() for item in response.xpath('//tr[@itemprop="additionalProperty"]').extract()]

тогда я получаю следующий

['<tr itemprop="additionalProperty" itemscope="" itemtype="http://schema.org/PropertyValue">\n              <td class="label_table" itemprop="name">Мощность двигателя (л.с.)</td>\n              <td class="value_table">\n                <span itemprop="value">4</span>\n              </td>\n            </tr>', '<tr itemprop="additionalProperty" itemscope="" itemtype="http://schema.org/PropertyValue">\n              <td class="label_table" itemprop="name">Тип масла в двигателе</td>\n              <td class="value_table">\n

Моя цель - начать:

Мощность двигателя (л.с.) 4
Тип масла в двигателе 10W-30 10W-40
Объем масла в двигателе 700

Tomáš Linhart · Answer 1 · 23 апреля 2019

normalize-space - это функция XPath, а не функция Python или метод объекта Python.Поэтому вам нужно использовать его в выражении XPath, например:

for item in response.xpath('//tr[@itemprop="additionalProperty"]'):
    yield {
        'name': item.xpath('normalize-space(./*[@itemprop="name"])').extract_first(),
        'value': item.xpath('normalize-space(./*[@itemprop="value"])').extract_first()
    }

Gallaecio · Answer 2 · 23 апреля 2019

Вам следует рассмотреть возможность использования html-text вместо normalize-space в XPath для достижения своей цели.

>>> from html_text import extract_text
>>> extract_text('''
... <tr itemprop="additionalProperty" itemscope="" itemtype="http://schema.org/PropertyValue">
...               <td class="label_table" itemprop="name">Мощность двигателя (л.с.)</td>
...               <td class="value_table">
...                 <span itemprop="value">4</span>
...               </td>
...             </tr>
... <tr itemprop="additionalProperty" itemscope="" itemtype="http://schema.org/PropertyValue">
...               <td class="label_table" itemprop="name">Тип масла в двигателе</td>
...               <td class="value_table">
...                 <span itemprop="value">10W-30 10W-40</span>
...               </td>
...             </tr>
... ''')
'Мощность двигателя (л.с.) 4\nТип масла в двигателе 10W-30 10W-40'

Scrapy - используйте «normalize-space» со списком предметов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy - используйте «normalize-space» со списком предметов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов