Я хотел бы напечатать все элементы с размером шрифта = 4 и 5 и удалить все, кроме первого появления
Я использую следующий код, но пока я получаю только все параграфы soup.find_all('p')
. Как я могу отфильтровать из этого вывода все, которые имеют размер шрифта 4 или 5 и удалить все повторы?
from bs4 import BeautifulSoup
with open("file.html", "rb") as fp:
soup = BeautifulSoup(fp,"html5lib")
soup.find_all('p')
Пример файла ниже
<!DOCTYPE html> <html> <body> <h1>Some header</h1> <p> <font size="5">India!</font> <p> <font size="4">Japan!</font> </p> </p> <p>Some text 1</p> <p> <font size="5">India!</font> </p> <p>Some text 2</p> <p> <font size="5">India!</font> <p> <font size="4">Japan!</font> </p> </p> <p>Some text 3</p> <p> <font size="5">Uganda!</font> </p> <p>Some text 4</p> <p> <font size="5">India!</font> <p> <font size="4">Japan!</font> </p> </p> <p>Some text 5</p> <p> <font size="5">India!</font> </p> <p>Some text 6</p> <p> <font size="5">Cameroon!</font> </p> <p>Some text 7</p> <p> <font size="4">India!</font> </p> <p>Some text 8</p> <p> <font size="5">India!</font> </p> <p>Some text 9</p> <p> <font size="5">India!</font> </p> <p>Some text 10</p> <p> <font size="5">Pakistan!</font> </p> <p>Some text 11</p> <p> <font size="5">Pakistan!</font> </p> <p>Some text 12</p> <p> <font size="5">India!</font> </p> <p>Some text 13</p> <p> <font size="4">Uganda!</font> </p> <p> <font size="5">India!</font> </p> <p>Some text 14</p> <p> <font size="4">India!</font> </p> <p> This is other text. </p> </body> </html>