Отделение информации от вывода в моем коде очистки (Beautifulsoup + python) - PullRequest
0 голосов
/ 08 марта 2020

Профиль, который я очищаю, - https://lawyers.justia.com/lawyer/robin-d-gross-39828. Я распечатываю вместе как образовательные, так и профессиональные ассоциации, как я могу их разделить?

for item in soup.find_all("dl", {"class": "description-list list-with-badges"}):
    y = item.find_all("span",attrs={"itemprop":"name"})
    if y:
        print("Education:", item.get_text(strip=True, separator= '|').split('|'))

Вывод:

Education: ['Santa Clara University School of Law', 'J.D. ', '  Law', '1998', 'Honors:', 'Awarded "Certificate in High Technology Law"', 'Activities:', 'Editor, Santa Clara Computer & High Technology Law Journal;  Editor-in-Chief, The Advocate, Santa Clara University Law School Newspaper.']
Education: ['Michigan State University, James Madison College', 'B.A. ', '  Political Philosophy', '1995', 'Honors:', 'Overseas Study Program in Caribbean and South America, Summer Semester 1994Vice-President, MSU Adventure Club']
Education: ['Michigan State University, James Madison College', 'B.A. ', '  International Relations', '1995']
Education: ['California State Bar', '# 200701', 'Member', 'Current']
Education: ['California Bar Association', 'Member', 'Current']
Education: ['San Francisco Bar Association', 'Member', 'Current']
Education: ['American Bar Association', 'Member', 'Current']
Education: ['Internet Corporation for Assigned Names and Numbers (ICANN) - Noncommercial Stakeholders Group', 'Executive Committee', '2010', '- Current']
Education: ['Executive Committee of FreeMuse', 'Member', '2009', '-', '2016']
Education: ['Public Interest Registry - Advisory Council', 'Member', '2012', '-', '2014']

1 Ответ

0 голосов
/ 09 марта 2020

Вы используете "class": "description-list list-with-badges" для получения ваших предметов. Если вы посмотрите на код, то увидите, что оба элемента в Education и Professional Associations имеют эти классы.

Если вы хотите поймать их отдельно, вы можете использовать тег itemtype. http://schema.org/CollegeOrUniversity - это значение тега Education и http://schema.org/Organization для Professional Associations.

...