Я пытаюсь очистить сохраненную HTML-страницу результатов и скопировать записи для каждого и перебрать документ.Однако я не могу понять, как сузить элемент, чтобы начать.Данные, которые я хочу получить, находятся в тегах «td» под каждым из следующих тегов «tr»:
<tr bgcolor="#d7d7d7">
<td valign="top" nowrap="">
Submittal<br>20190919-5000
<!-- ParentAccession= -->
<br>
</td>
<td valign="top">
09/18/2019<br>
09/19/2019
</td>
<td valign="top" nowrap="">
ER19-2760-000<br>ER19-2762-000<br>ER19-2763-000<br>ER19-2764-000<br>ER1 9-2765-000<br>ER19-2766-000<br>ER19-2768-000<br><br>
</td>
<td valign="top">
(doc-less) Motion to Intervene of Snohomish County Public Utility District No. 1 under ER19-2760, et. al..<br>Availability: Public<br>
</td>
<td valign="top">
<classtype>Intervention /<br> Motion/Notice of Intervention</classtype>
</td>
<td valign="top">
<table valign="top">
<input type="HIDDEN" name="ext" value="TXT"><tbody><tr><td valign="top"> <input type="checkbox" name="subcheck" value="V:14800341:12904817:15359058:TXT"></td><td> <a href="../common/opennat.asp?fileID=15359058">Text</a></td><td> & nbsp; 0K</td></tr><input type="HIDDEN" name="ext" value="PDF"><tr><td valign="top"> <input type="checkbox" name="subcheck" value="V:14800341:12904822:15359063:PDF"></td><td> <a href="../common/opennat.asp?fileID=15359063">FERC Generated PDF</a></td><td> 11K</td></tr>
</tbody></table>
</td>
Следующий тег: со структурой, аналогичной приведенной выше.Они чередуются, поэтому результаты отображаются разными цветами на странице результатов.Мне нужно пройти через все последующие теги td и получить данные, но они не различаются ни по классу, ни по чему я могу сосредоточиться.Код, который я написал, захватывает все содержимое текста тегов td и добавляет его, но мне нужно обработать каждый тег td как отдельный элемент, а затем сделать то же самое для следующей записи и т. Д.
Установив параметр td [0] значение, которое я начинаю с первого тега td, но я не думаю, что это правильный подход.
from bs4 import BeautifulSoup
import urllib
import re
soup = BeautifulSoup(open("/Users/Desktop/FERC/uploads/ferris_9-19-2019-9-19-2019.electric.submittal.html"), "html.parser")
data = []
for td in soup.findAll(bgcolor=["#d7d7d7", "White"]):
values = [td[0].text.strip() for td in td.findAll('td')]
data.append(values)
print(data)