Python: создание эффективного алгоритма очистки элемента с любой веб-страницы. - PullRequest
0 голосов
/ 03 августа 2020

Я работаю над проектом, который должен очистить определенный c элемент (например, имя автора) с любой заданной веб-страницы. По этому пункту я предложил варианты. затем я пишу функцию, которая очищает элемент по списку - используя 5 шагов поисковых тегов: 1- поиск в мета 2- поиск в itemprop 3- поиск по id 4- поиск в rel 5- поиск в скрипте

  mylist=['authorname' , 'author name' , 'authors name' , 'written by', 
'article author' , 'book authors' , 'authored by' , 'author']

    url='https://www.architecturaldigest.com/story/before-after-bathroom-makeover-design-tips'

    page = urllib.request.urlopen(url)

    soup = BeautifulSoup(page,"html.parser") 

    def item_scraper(soup , mylist)
              For list_item in mylist:
                  if soup.find('meta', attrs={'name': list_item }) is not None:
                       item=soup.find('meta', attrs={'name' : list_item})['content']
                       return item_value
              For list_item in mylist:
                       # search in itemprop code
                       Return item_value
              For list_item in mylist:
                       # search in id code
                       Return item_value
              For list_item in mylist:
                       # search in rel code
                       Return item_value
              For list_item in mylist:
                       # search in script code
                       Return item_value 

item_scraper(soup , author_list )

Может ли эта стратегия работать эффективно при очистке элемента с веб-страницы? И охватывает ли он все ситуации? Посоветуйте, пожалуйста, разработать его.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...