Я очищаю некоторые HTML страницы с красивым супом, пытаясь извлечь некоторые обновленные финансовые данные. Я забочусь только о числах, которые имеют запятую ie 100 000 или 12 000 000, но не 450, например. Цель состоит в том, чтобы просто найти расположение разделенных запятыми чисел в строке, а затем мне нужно извлечь все предложение, в котором они находятся.
Я переместил весь фрагмент в список строк, и в этом списке я хочу извлечь все числа, которые имеют запятую.
url = 'https://www.sec.gov/Archives/edgar/data/354950/000035495020000024/hd-2020proxystatement.htm'
r = requests.get(url)
soup = BeautifulSoup(r.content)
text = soup.find_all(text = True)
strings = []
for i in range(len(text)):
text_s = str(proxy_text[i])
strings.append(text)
Я думал о следующем коде повторения, но я не уверен, удалит ли он все экземпляры .. ie в списке может быть несколько экземпляров чисел разделенные запятыми.
number = re.sub('[^>0-9,]', "", text)
Любые мысли будут огромной помощью! Спасибо