Как извлечь данные с BeautifulSoup с похожими атрибутами - PullRequest
0 голосов
/ 20 сентября 2019

Я пытаюсь очистить сохраненную HTML-страницу результатов и скопировать записи для каждого и перебрать документ.Однако я не могу понять, как сузить элемент, чтобы начать.Данные, которые я хочу получить, находятся в тегах «td» под каждым из следующих тегов «tr»:

<tr bgcolor="#d7d7d7">
<td valign="top" nowrap="">
Submittal<br>20190919-5000
<!-- ParentAccession= -->
<br>
</td>
<td valign="top">
    09/18/2019<br>
    09/19/2019
</td>
<td valign="top" nowrap="">
    ER19-2760-000<br>ER19-2762-000<br>ER19-2763-000<br>ER19-2764-000<br>ER1    9-2765-000<br>ER19-2766-000<br>ER19-2768-000<br><br>
</td>
<td valign="top">
(doc-less) Motion to Intervene of Snohomish County Public Utility     District No. 1 under ER19-2760, et. al..<br>Availability: Public<br>
</td>
<td valign="top">
<classtype>Intervention /<br> Motion/Notice of     Intervention</classtype>
</td>
<td valign="top">
<table valign="top">


<input type="HIDDEN" name="ext" value="TXT"><tbody><tr><td     valign="top"> <input type="checkbox" name="subcheck"    value="V:14800341:12904817:15359058:TXT"></td><td>&nbsp;<a    href="../common/opennat.asp?fileID=15359058">Text</a></td><td>&nbsp;&  nbsp;&nbsp;&nbsp;0K</td></tr><input type="HIDDEN" name="ext" value="PDF"><tr><td valign="top"> <input type="checkbox"      name="subcheck" value="V:14800341:12904822:15359063:PDF"></td><td>&nbsp;<a href="../common/opennat.asp?fileID=15359063">FERC Generated PDF</a></td><td>&nbsp;&nbsp;&nbsp;&nbsp;11K</td></tr>

    </tbody></table>
</td>

Следующий тег: со структурой, аналогичной приведенной выше.Они чередуются, поэтому результаты отображаются разными цветами на странице результатов.Мне нужно пройти через все последующие теги td и получить данные, но они не различаются ни по классу, ни по чему я могу сосредоточиться.Код, который я написал, захватывает все содержимое текста тегов td и добавляет его, но мне нужно обработать каждый тег td как отдельный элемент, а затем сделать то же самое для следующей записи и т. Д.

Установив параметр td [0] значение, которое я начинаю с первого тега td, но я не думаю, что это правильный подход.

from bs4 import BeautifulSoup
import urllib
import re
soup = BeautifulSoup(open("/Users/Desktop/FERC/uploads/ferris_9-19-2019-9-19-2019.electric.submittal.html"), "html.parser")


data = []

for td in soup.findAll(bgcolor=["#d7d7d7", "White"]):
    values = [td[0].text.strip() for td in td.findAll('td')]
    data.append(values)
    print(data)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...