Как часть моей работы, мне нужно регулярно проверять эту страницу на наличие конкретных документов.Я обнаружил, что могу использовать метод pandas read_html
для успешного чтения таблицы в информационный фрейм (что очень удобно, поскольку я могу легко запрашивать конкретные документы по ключевым словам).Проблема, с которой я столкнулся сейчас, заключается в том, что этот метод не может анализировать нужные мне ссылки и вместо этого сохраняет простой текст (в частности, я имею в виду вторые столбцы, которые имеют номера типа «1682/0 / 15-19»).
Код, который я придумал, был очень прост:
import pandas as pd
df = pd.read_html('http://www.vru.gov.ua/act_list')[0]
, который дает мне фрейм данных со всей необходимой мне информацией, кроме ссылок.
Можно ли каким-то образом получить ссылки вместо простого текста, и если да, то как я могу это сделать?
Я знаю, что, если бы я использовал библиотеки Requests и BeautifulSoup, было бы возможно получить href ссылки, но я не знаю библиотеки BeautifulSoup, достаточно хорошей для этого.Любые советы или я должен просто изучить BeautifulSoup?