Итак, я пытаюсь извлечь таблицу с веб-сайта.Это таблица из двух столбцов:
Name Foo
Number Foo123
Address 10
First Drive
London
AB34 5FG
Region United Kingdom
Таблица не имеет заголовков, а строка «Адрес» содержит пустые ячейки в первом столбце для второго, города, почтового индекса и т. Д.
Мне удалось получить стол, просто отлично.
table = response.xpath('//table[@id="MemberDetails"]/tr/td//text()')
Это вывод:
[<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'Name:\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\nFoo\xa0\r\n'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'Number:\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\nFoo123\xa0\r\n'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'Address:\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\n(10)\xa0\r\n'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\nFirst Drive\xa0\r\n'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\nLondon\xa0\r\n'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\nAB34 5FG\xa0\r\n'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\nUnited Kingdom\xa0\r\n'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'Region:\xa0'>,
<Selector xpath='//table[@id="MemberDetails"]/tr/td//text()' data=u'\r\nUnited Kingdom\xa0\r\n'>]
Тем не менее, я озадачен тем, как я могу разобрать таблицу в правильную структуру.
1-й вопрос: Не уверен, как мне справиться с адресным полем.2-й вопрос: это таблица из двух столбцов.При сохранении этого я хотел бы транспонировать так, чтобы «Имя, Номер, Адрес, Регион» были заголовками столбцов.
Существуют тысячи подобных страниц, которые содержат подобные данные.
Цените, если кто-то может указать мне в правильном направлении.