удалить верхние и нижние колонтитулы, кавычки в фреймах данных, которые содержат документы - PullRequest
0 голосов
/ 18 октября 2019

Попытка предварительно обработать этот набор данных, чтобы использовать его в алгоритме для НЛП.

У меня есть два кадра данных. Один с данными поезда, а другой с данными испытаний.

Каждый выглядит примерно так:

df.head()

                        news                               genre
0   From: mathew <mathew@mantis.co.uk>\n Subject: ...   alt.atheism
1   From: mathew <mathew@mantis.co.uk>\n Subject: ...   alt.atheism
2   From: I3150101@dbstu1.rz.tu-bs.de (Benedikt Ro...   alt.atheism

каждая строка в news является документом.

Пример:

df.news[4]

'От: strom@Watson.Ibm.Com (Роб Стром) \ n Тема: Re: [soc.motss, и др.] "Принстонские оси выбирают средства для бойскаутов"\ n Распространение: США \ n Организация: IBM Research \ n Строки: 15 \ n \ n В статье n4hy@harder.ccr-p.ida.org (Боб МакГвайер) пишет: \ n \ n |> [1] ОДНАКОЯ ненавижу экономический терроризм и политкорректность \ n |> хуже, чем я ненавижу эту политику. \ n \ n \ n |> [2] Более эффективный подход состоит в том, чтобы прекратить жертвовать \ n |> ЛЮБОЙ организации, которая прямо или косвенно поддерживает вопросы прав геев \ n |>, пока они не прекратят бойкот на финансирование разведчиков. \ n \ n Может кто-нибудь примирить кажущееся противоречие между [1] и [2]? \ n \ n - \ n Роб Стром, strom@watson.ibm.com, (914) 784-7641 \ n IBM Research, 30Saw Mill River Road, PO Box 704, Yorktown Heights, NY 10598 \ n '

Как улучшить документы, чтобы получить лучшие результаты?

Когда я работал с типом Bunchданных было легко, как вы могли просто сделать во время импорта набора данных:

 remove=('headers', 'footers', 'quotes')

Можете ли вы сказать мне, как удалить их в случае, если у нас есть здесь?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...