Я собираю (для себя) относительно большие объемы данных в объект Beautifulsoup. Результат типичной очистки составляет 600 страниц или более тегов html со многими вложенными таблицами. Я пытаюсь лучше понять структуру, чтобы эффективно извлекать данные из таблиц.
В этих суповых объектах содержится до 500 таблиц со многими "повторяющимися" классами таблиц. Ниже приведены два примера.
<table class="TableClass1">
<table class="TableClass2">
В моем документе из 500 таблиц может быть 250 из них, поэтому трудно увидеть, что при просмотре 600 страниц * 1013 существует только два уникальных типа *.
Как я могу вытащить список уникальных имен классов только для табличных тегов из объекта супа? В результате вы увидите такой список:
<table class="TableClass1">
<table class="TableClass2">