Как читать историю просмотра Youtube из Google Takeout, используя Python - PullRequest
0 голосов
/ 14 января 2019

Я скачал историю просмотров YouTube с Google Takeout, которая, к сожалению, доступна только в виде html-файла, а не в формате json.

Я изучил возможность использования pandas.read_html и BeautifulSoup, хотя они, похоже, ориентированы на данные в таблицах. История просмотра Youtube представлена ​​в отдельных блоках, как показано на рисунке, хотя они имеют одинаковый формат.

Screenshot of youtube watch history html file

Поэтому я ищу совет о том, как очистить данные, когда данные не представлены в таблице, но имеют одинаковый формат для всех экземпляров (тысяч).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...