Попытка предварительно обработать этот набор данных, чтобы использовать его в алгоритме для НЛП.
У меня есть два кадра данных. Один с данными поезда, а другой с данными испытаний.
Каждый выглядит примерно так:
df.head()
news genre
0 From: mathew <mathew@mantis.co.uk>\n Subject: ... alt.atheism
1 From: mathew <mathew@mantis.co.uk>\n Subject: ... alt.atheism
2 From: I3150101@dbstu1.rz.tu-bs.de (Benedikt Ro... alt.atheism
каждая строка в news
является документом.
Пример:
df.news[4]
'От: strom@Watson.Ibm.Com (Роб Стром) \ n Тема: Re: [soc.motss, и др.] "Принстонские оси выбирают средства для бойскаутов"\ n Распространение: США \ n Организация: IBM Research \ n Строки: 15 \ n \ n В статье n4hy@harder.ccr-p.ida.org (Боб МакГвайер) пишет: \ n \ n |> [1] ОДНАКОЯ ненавижу экономический терроризм и политкорректность \ n |> хуже, чем я ненавижу эту политику. \ n \ n \ n |> [2] Более эффективный подход состоит в том, чтобы прекратить жертвовать \ n |> ЛЮБОЙ организации, которая прямо или косвенно поддерживает вопросы прав геев \ n |>, пока они не прекратят бойкот на финансирование разведчиков. \ n \ n Может кто-нибудь примирить кажущееся противоречие между [1] и [2]? \ n \ n - \ n Роб Стром, strom@watson.ibm.com, (914) 784-7641 \ n IBM Research, 30Saw Mill River Road, PO Box 704, Yorktown Heights, NY 10598 \ n '
Как улучшить документы, чтобы получить лучшие результаты?
Когда я работал с типом Bunchданных было легко, как вы могли просто сделать во время импорта набора данных:
remove=('headers', 'footers', 'quotes')
Можете ли вы сказать мне, как удалить их в случае, если у нас есть здесь?