Я работаю над проектом, который должен очистить определенный c элемент (например, имя автора) с любой заданной веб-страницы. По этому пункту я предложил варианты. затем я пишу функцию, которая очищает элемент по списку - используя 5 шагов поисковых тегов: 1- поиск в мета 2- поиск в itemprop 3- поиск по id 4- поиск в rel 5- поиск в скрипте
mylist=['authorname' , 'author name' , 'authors name' , 'written by',
'article author' , 'book authors' , 'authored by' , 'author']
url='https://www.architecturaldigest.com/story/before-after-bathroom-makeover-design-tips'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page,"html.parser")
def item_scraper(soup , mylist)
For list_item in mylist:
if soup.find('meta', attrs={'name': list_item }) is not None:
item=soup.find('meta', attrs={'name' : list_item})['content']
return item_value
For list_item in mylist:
# search in itemprop code
Return item_value
For list_item in mylist:
# search in id code
Return item_value
For list_item in mylist:
# search in rel code
Return item_value
For list_item in mylist:
# search in script code
Return item_value
item_scraper(soup , author_list )
Может ли эта стратегия работать эффективно при очистке элемента с веб-страницы? И охватывает ли он все ситуации? Посоветуйте, пожалуйста, разработать его.