Извлечь определенную c информацию из pandas фрейма данных - PullRequest
0 голосов
/ 10 июля 2020

Мой фрейм данных выглядит так -

id                                           text
1               ><body lang="EN-IN" link="#0563C1" vlink="#954F72"><div class="WordSection1"><p 
                class="MsoNormal">I am interested.</p><p class="MsoNormal">I need :</p><p 
                class="MsoNormal">330 wp</p><p class="MsoNormal">50 modules</p><p 
                class="MsoNormal">&nbsp;</p><table class="MsoNormalTable" border="0" 
                cellspacing="0" cellpadding="0" width="0" style="width:282.0pt; border- 
                collapse:collapse">

2               ><body lang="EN-IN" link="#0563C1" vlink="#954F72"><div class="WordSection1"><p 
               class="MsoNormal">I am not interested.</p><p 
               class="MsoNormal">&nbsp;</p><table class="MsoNormalTable" border="0" 
               cellspacing="0" cellpadding="0" width="0" style="width:282.0pt; border- 
               collapse:collapse">

Мой последний фрейм данных выглядит так -

id                                           text                         final_text                                              
1               ><body lang="EN-IN" link="#0563C1"                     I am interested. I need
                 vlink="#954F72"><div class="WordSection1"><p          330 wp  50 modules    
                class="MsoNormal">I am interested.</p>
                <p class="MsoNormal">I need :</p><p 
                class="MsoNormal">330 wp</p><p 
                class="MsoNormal">50 modules</p><p 
                class="MsoNormal">&nbsp;</p><table 
                 class="MsoNormalTable" border="0" 
                cellspacing="0" cellpadding="0" 
                width="0" style="width:282.0pt; border- 
                collapse:collapse">

2               ><body lang="EN-IN" link="#0563C1"                      I am not interested.
                vlink="#954F72"><div class="WordSection1"><p 
               class="MsoNormal">I am not interested.</p><p 
               class="MsoNormal">&nbsp;</p><table 
               class="MsoNormalTable" border="0" 
               cellspacing="0" cellpadding="0" 
               width="0" style="width:282.0pt; border- 
               collapse:collapse">

logi c должен содержать всю информацию, которая существует между <p class="MsoNormal"> and </p>. Но не включать эту строку "&nbsp". Я хочу сделать это на питонах.

1 Ответ

0 голосов
/ 10 июля 2020

обычно люди не задают такие вопросы, как «дайте мне код для этого». Вы можете попробовать опубликовать тот же вопрос, что и «как удалить теги из предложений, которые выглядят так» или что-то в этом роде.

В любом случае, вот ваше решение.

def get_sent(s):
    sent = ' '.join([i[1:] for i in s[1:].replace('>','|~').replace('<','|').split('|') if i[:1]=='~' and len(i)>1 and i[:2]!='~&'])
    return sent

df['final_text'] = df['text'].apply(get_sent)

Надеюсь на это помогает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...