Question

Я новичок в Python и NLTK. Я пытаюсь подготовить текст для токенизации с помощью NLTK в Python после импорта текста из CSV. В файле только один столбец со свободным текстом. Я хочу выделить тот конкретный столбец c, который я сделал .... Я думаю.

import spacy
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
import re
import unicodedata


pd.set_option('display.max_colwidth',50)

oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')

text = oiw.drop(oiw.columns[[1,2,3]],axis=1)

for row in text:
    for text['value'] in row:
        tokens = word_tokenize(row)
print(tokens)

Когда я запускаю код, он выводит мне ['values'], который является именем столбца. Как получить, чтобы остальные строки отображались в выходных данных?

Образцы данных, которые у меня есть в столбце «значения»:

Порядок был слишком прост для заказа онлайн.

Все отлично.

Мне слишком легко сломать.

Вывод I надеюсь получить это:

['The','way','was','too','easy','to','order','online','Everything','is','great','It''s','for','me','break']

Rajan Chauhan · Answer 1 · 26 апреля 2020

Коррекция, которую необходимо внести, находится в сегменте.

oiw = pd.read_csv(r'C:\Users\tgray\Documents\PythonScripts\Worksheets.csv')

text = oiw.drop(columns=[1,2,3]) # correctly dropping columns named 1 2 and 3 

for row in text['value']: # Correctly selecting the column 
    tokens = word_tokenize(row)
    print(tokens) # Will print tokens in each row
print(tokens) # Will print the tokens of the last row

Следовательно, вы будете выполнять итерацию по правильному столбцу кадра данных.

Python NLTK Подготовка данных из CSV для токенизации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python NLTK Подготовка данных из CSV для токенизации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы