Я пытаюсь почистить очень простую таблицу с сайта NOAA: https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat
Таблица представляет собой файл «.dat», и сайт выглядит в формате html. Когда я использую BeautifulSoup для чтения контента, я вижу контент очень хорошо. Однако, когда я затем ищу таблицу с помощью «find_all» или «find», я ничего не получаю, т.е. [].
Вот мой начальный код:
page = requests.get('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat')
soup = BeautifulSoup(page.content,'html.parser') #'html5lib' #'html.parser' 'lxml'
table = soup.find_all('table')
Когда я набираю суп, я получаю следующее:
![enter image description here](https://i.stack.imgur.com/NlVwx.png)
Однако, когда я пытаюсь получить информацию в таблицу, она появляется пусто
table
>> []
Я пробовал следующие варианты:
page = urllib.request.urlopen('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat').read()
soup = BeautifulSoup(page,'lxml')
soup = BeautifulSoup(page,'html5lib') #'' #''
table = soup.findAll('table')
table = soup.findAll("div",{"class":"line-gutter-backdrop"})
table = soup.find_all(True)
Однако таблица все еще пуста.
Я нашел этот вопрос похожим: Невозможно найти таблицу с помощью Python BeautifulSoup
Но моя таблица не в javascript (насколько я знаю). Это просто текст.
Я очень новичок в очистке данных и действительно не знаю, почему этот простой пример не работает. Любая помощь очень ценится. Спасибо.