Question

Я привык анализировать текстовые файлы в Python. Обычно я делаю что-то вроде:

f = open('filename.txt','r')
text = ""
while 1:
    line = f.readline()
    if not line:break
    text += line

f.close()

# tokenize
tokenized_word=word_tokenize(text)
.
.
.

Однако сейчас я работаю не с текстовым файлом, а с кадром данных Pandas. Как я могу получить объект 'text' из столбца Pandas?

Я попытался взглянуть на сообщение Text mining с Python и pandas, но это не так именно то, что я ищу.

Code Pope · Answer 1 · 05 мая 2020

Давайте представим, что это ваш datafame:

import pandas as pd 
df = pd.DataFrame({ "Text": ['bla bla bla', 'Hello', 'Other sentence', 'Lets see']})

Вы можете получить синоним своего кода, используя функцию agg:

text = df['Text'].agg(lambda x: ' '.join(x.dropna())) 
text

Результат:

'bla bla bla Hello Other sentence Lets see'

Затем можно токенизировать:

tokenized_word=word_tokenize(text)

gtomer · Answer 2 · 05 мая 2020

Вы можете перебирать строки:

for idx, row in df.iterrows():
 tokenized_word=word_tokenize(row['text'])

Как мне проанализировать текст из столбца pandas?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне проанализировать текст из столбца pandas?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы