разобрать таблицу и собрать обратно - PullRequest
0 голосов
/ 08 января 2020

Я хочу избавиться от элемента HTML в моих данных, поэтому я анализирую его с помощью BeautifulSoup. Но я не понимаю, как собрать его обратно после того, как я проведу через него oop.

это мой набор данных выглядит так: enter image description here

I разобрать таблицу и избавиться от элемента HTML в ней с помощью этого кода:

testDataset = tags_ALL2
testDataset['description'] = testDataset['description'].astype(str)
testDataset2 = testDataset['description']
for url in testDataset['description']:
    soup = BeautifulSoup(url, 'html.parser')
    row = {}
    for j in soup.get_text():
        row = "\t".join(j)
    return row

В конце я хочу получить весь разобранный текст и собрать его вместе в описании для каждой строки , Но мой код каким-то образом распознает оператор return как синтаксическую ошибку.

Может кто-нибудь мне помочь, пожалуйста?

РЕДАКТИРОВАНИЕ: он отлично работает с этот код от @Shweta Chandel:

def clean(text):
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

testDataset['description'] = testDataset['description'].apply(lambda x: clean(x))

1 Ответ

0 голосов
/ 08 января 2020

Попробуйте это:

def clean(text):
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

testDataset['description'] = testDataset['description'].apply(lambda x: clean(x))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...