Я скачал историю просмотров YouTube с Google Takeout, которая, к сожалению, доступна только в виде html-файла, а не в формате json.
Я изучил возможность использования pandas.read_html и BeautifulSoup, хотя они, похоже, ориентированы на данные в таблицах. История просмотра Youtube представлена в отдельных блоках, как показано на рисунке, хотя они имеют одинаковый формат.
Поэтому я ищу совет о том, как очистить данные, когда данные не представлены в таблице, но имеют одинаковый формат для всех экземпляров (тысяч).