Я хочу избавиться от элемента HTML в моих данных, поэтому я анализирую его с помощью BeautifulSoup. Но я не понимаю, как собрать его обратно после того, как я проведу через него oop.
это мой набор данных выглядит так:
I разобрать таблицу и избавиться от элемента HTML в ней с помощью этого кода:
testDataset = tags_ALL2
testDataset['description'] = testDataset['description'].astype(str)
testDataset2 = testDataset['description']
for url in testDataset['description']:
soup = BeautifulSoup(url, 'html.parser')
row = {}
for j in soup.get_text():
row = "\t".join(j)
return row
В конце я хочу получить весь разобранный текст и собрать его вместе в описании для каждой строки , Но мой код каким-то образом распознает оператор return как синтаксическую ошибку.
Может кто-нибудь мне помочь, пожалуйста?
РЕДАКТИРОВАНИЕ: он отлично работает с этот код от @Shweta Chandel:
def clean(text):
soup = BeautifulSoup(text, 'html.parser')
return soup.get_text()
testDataset['description'] = testDataset['description'].apply(lambda x: clean(x))