Python NLTK Подготовка данных из CSV для токенизации - PullRequest
0 голосов
/ 25 апреля 2020

Я новичок в Python и NLTK. Я пытаюсь подготовить текст для токенизации с помощью NLTK в Python после импорта текста из CSV. В файле только один столбец со свободным текстом. Я хочу выделить тот конкретный столбец c, который я сделал .... Я думаю.

import spacy
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
import re
import unicodedata


pd.set_option('display.max_colwidth',50)

oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')

text = oiw.drop(oiw.columns[[1,2,3]],axis=1)

for row in text:
    for text['value'] in row:
        tokens = word_tokenize(row)
print(tokens)

Когда я запускаю код, он выводит мне ['values'], который является именем столбца. Как получить, чтобы остальные строки отображались в выходных данных?

Образцы данных, которые у меня есть в столбце «значения»:

Порядок был слишком прост для заказа онлайн.

Все отлично.

Мне слишком легко сломать.

Вывод I надеюсь получить это:

['The','way','was','too','easy','to','order','online','Everything','is','great','It''s','for','me','break']

1 Ответ

0 голосов
/ 26 апреля 2020

Коррекция, которую необходимо внести, находится в сегменте.

oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')

text = oiw.drop(columns=[1,2,3]) # correctly dropping columns named 1 2 and 3 

for row in text['value']: # Correctly selecting the column 
    tokens = word_tokenize(row)
    print(tokens) # Will print tokens in each row
print(tokens) # Will print the tokens of the last row

Следовательно, вы будете выполнять итерацию по правильному столбцу кадра данных.

...