Я наблюдаю за пауком-питоном в разборке, чтобы разобрать страницу, и все работает, кроме извлечения из таблицы.Он извлекает данные из таблицы, но повторяет их несколько раз.
Итак, для таблицы:
<tbody><tr>
<td><b>Name</b></td>
<td><b>Role</b></td>
</tr>
<tr style="background-color:#C0C0C0; color:Black;">
<td>Name 1</td>
<td>No Party</td>
</tr>
<tr style="background-color:#C0C0C0; color:Black;">
<td>Eny</td>
<td>Party</td>
</tr>
<tr style="background-color:#C0C0C0; color:Black;">
<td>Cory</td>
<td>Party</td>
</tr>
</tbody>
Поэтому мне нужно взять строки из таблицы, в которых есть вторая сторона, объединить их и написать в виде одной строки. Я напишу парсер следующим образом:
raw_data['names'] = process_string(", ".join(page.xpath('//tr[td="Party"]/td[1]/text()').extract()))
В результате я получил:
Эни, Кори, Энт, Кори, Эни, Кори, Эни, Кори
Таким образом, он повторил правильный результат 4 раза.В скрипте нет повторения, другое поле прекрасно работает, так что в скрипте нет ничего плохого, это просто выражение.Я пробовал другой xpath, но результат тот же.Чем отличается таблица?