Я хочу проанализировать большой файл .txt и извлечь фрагменты данных на основе их родительских тегов.Проблема, например, в том, что 'class = "ro"' содержит сотни различных битов текста и чисел, большинство из которых бесполезны.
import requests
from bs4 import BeautifulSoup
data = requests.get('https://www.sec.gov/Archives/edgar/data/320193/0000320193-18-000070.txt')
# load the data
soup = BeautifulSoup(data.text, 'html.parser')
# get the data
for tr in soup.find_all('tr', {'class':['rou','ro','re','reu']}):
db = [td.text.strip() for td in tr.find_all('td')]
print(db)
Как я уже говорил ранее, это работает дляполучить все эти теги, но 95% возвратов бесполезны.Я хочу фильтровать по имени файла, используя цикл for или что-то, что работает аналогично ... "Для всех файлов с FILENAME = R2, R3 и т. Д." ... захватить все теги с классом 'ro', 'rou',и т. д. Все, что я до сих пор пробовал, возвращает пустую бутылку ... может кто-нибудь помочь с этим?Заранее спасибо!
<DOCUMENT>
<TYPE>XML
<SEQUENCE>14
**<FILENAME>R2.htm** <------- for everything with this filename
<DESCRIPTION>IDEA: XBRL DOCUMENT
<TEXT>
<html>
<head>
<title></title>
.....removed for brevity
</head>
<body>
.....removed for brevity
<td class="text"> <span></span> <------ return this tag
</td>
.....removed for brevity
</tr>
Два файла с примерами можно найти здесь в полном объеме:
(https://www.sec.gov/Archives/edgar/data/1800/0001104659-18-065076.txt) (https://www.sec.gov/Archives/edgar/data/1084869/0001437749-18-020205.txt)
)