Разбор твитов, хранящихся в столбце данных панд - PullRequest
1 голос
/ 02 апреля 2019

Я пытаюсь проанализировать твиты, которые хранятся в столбце с именем "текст" в файле .csv. Я хочу использовать регулярные выражения, TweetTokenizer и т. Д., Но все это требует, чтобы текст был в виде строки (насколько я понимаю).

Я видел этот пост:

Анализ твита внутри столбца csv в Python

но для меня код слишком специфичен для поиска хэштегов. Я действительно хочу это сделать, но кто-нибудь знает, как в более общем виде превратить текст в этом «текстовом» столбце в строки, чтобы я мог разобрать?

Спасибо, punpun

1 Ответ

0 голосов
/ 02 апреля 2019

Текстовые столбцы следует импортировать как строки при чтении файла CSV:

df = pd.read_csv('tweet.csv')
print(df)

Выход:

            user                                               text
0  scotthamilton  is upset that he can't update his Facebook by ...
1       mattycus  @Kenichan I dived many times for the ball. Man...
2        ElleCTF     my whole body feels itchy and like its on fire
3         Karoli  @nationwideclass no, it's not behaving at all....
4       joy_wolf                       @Kwesidei not the whole crew
5        mybirch                                         Need a hug
print(df.dtypes)

Выход:

user    object
text    object
dtype: object

Тип Pandas object dtype совпадает с типом Python str и используется для текста.

Если вам нужно преобразовать тип столбца в str, вы можете использовать следующее:

df.text = df.text.astype(str)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...