Я новичок в Python и NLTK. Я пытаюсь подготовить текст для токенизации с помощью NLTK в Python после импорта текста из CSV. В файле только один столбец со свободным текстом. Я хочу выделить тот конкретный столбец c, который я сделал .... Я думаю.
import spacy
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
import re
import unicodedata
pd.set_option('display.max_colwidth',50)
oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')
text = oiw.drop(oiw.columns[[1,2,3]],axis=1)
for row in text:
for text['value'] in row:
tokens = word_tokenize(row)
print(tokens)
Когда я запускаю код, он выводит мне ['values'], который является именем столбца. Как получить, чтобы остальные строки отображались в выходных данных?
Образцы данных, которые у меня есть в столбце «значения»:
Порядок был слишком прост для заказа онлайн.
Все отлично.
Мне слишком легко сломать.
Вывод I надеюсь получить это:
['The','way','was','too','easy','to','order','online','Everything','is','great','It''s','for','me','break']