как использовать стоп-слово библиотеки Sastrawi Python, если данные из файла Excel или CSV - PullRequest
1 голос
/ 22 апреля 2019

Я не могу использовать данные из файла excel для реализации в стоп-словах функций

Я пробовал вот так

Данные могут отображаться с помощью hasist столбца

train['hadis'] = train['hadis'].apply(lambda x: " ".join(x.stopword.remove() for x in x.split()))
train['hadis'].head()

но результат ошибки

from Sastrawi.StopWordRemover.StopWordRemoverFactory import     
StopWordRemoverFactory
factory = StopWordRemoverFactory()
stopword = factory.create_stop_word_remover()

kalimat = 'Dengan Menggunakan Python dan Library Sastrawi saya dapat 
melakukan proses Stopword Removal'
stop = stopword.remove(kalimat)
print(stop)

вывод результата является успешным при пропадании saya & dan

но мой вопрос заключается в том, как, если значение переменной kalimat взято из данных Excel стак много строк данных?

1 Ответ

0 голосов
/ 22 апреля 2019

Я предполагаю, что ваш файл Excel имеет формат csv с именем kalimat.csv, а kalimat - это столбец, содержащий предложение, которое вы хотите проанализировать.

kalimat.csv:

no |                                           kalimat
------------------------------------------------------
 1 | saya semua perbuatan tergantung niatnya dan ba...
 2 | terkadang datang kepadaku seperti suara gemeri...
 3 | bacalah beliau menjawab aku tidak bisa baca na...
 4 | Dengan Menggunakan Python dan Library Sastrawi...

Попробуйте этот код:

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
import pandas as pd

factory = StopWordRemoverFactory()
stopword = factory.create_stop_word_remover()

df = pd.read_csv("kalimat.csv")
for i, kalimat in enumerate (df['kalimat']):
    stop = stopword.remove(kalimat)
    print(i,stop + '\n')

Выход:

0 semua perbuatan tergantung niatnya ba... 
1 terkadang datang kepadaku suara gemeri... 
2 bacalah beliau menjawab aku bisa baca na... 
3 Dengan Menggunakan Python Library Sastrawi...
...