Я пытаюсь отсканировать в сети некоторые тезисы исследований, и некоторые слова просто объединяются.К сожалению, это недостаточно согласованно, когда я могу просто сделать что-то вроде outputexample.replace("WordMerge","")
.
Например, в URL-адресе, указанном в моем коде, первая строка в выводе:
AbstractsPublic AbstractDownload this abstract: English (pdf) | Español (pdf) | Audio Recording (mp3)
Я хотел бы предотвратить это и сохранить как можно больше исходного текстаи отформатируйте как можно.
import requests
import time
from bs4 import BeautifulSoup
import re
urlsummary ='https://www.pcori.org/research-results/2013/testing-new-
ways-schedule-appointments-community-health-centers-help-patients'
html = requests.get(urlsummary).content
soup = BeautifulSoup(html, 'lxml')
abstract = soup.find(class_='pane pane--node').get_text()
print(abstract)