Как удалить стоп-слова из файла CSV с помощью NLTK? - PullRequest
1 голос
/ 14 мая 2019

Попытка удалить стоп-слова из CSV-файла, который имеет 3 столбца и создает новый CSV-файл с удаленными стоп-словами. Однако это успешно, данные в новом файле отображаются в верхней строке, а не в столбцах исходного файла.

    import io 
    import codecs
    import csv
    from nltk.corpus import stopwords 
    from nltk.tokenize import word_tokenize 

    stop_words = set(stopwords.words('english')) 
    file1 = codecs.open('soccer.csv','r','utf-8') 
    line = file1.read() 
    words = line.split()
    for r in words: 
        if not r in stop_words: 
            appendFile = open('stopwords_soccer.csv','a', encoding='utf-8') 
            appendFile.write(" "+r)
            appendFile.close()

1 Ответ

1 голос
/ 14 мая 2019

Вам необходимо вставить символ новой строки после написания каждой строки.

for r in words: 
    if not r in stop_words: 
        appendFile = open('stopwords_soccer.csv','a', encoding='utf-8') 
        appendFile.write(r)
        appendFile.write("\n")
        appendFile.close()

Это должно решить вашу проблему.

...