Sentiment140 Предварительная обработка - PullRequest
0 голосов
/ 26 августа 2018

Я пытался выполнить некоторую предварительную обработку в базе данных Sentiment140 на Kaggle: https://www.kaggle.com/kazanova/sentiment140

код, который я использую, это:

import os
from nltk.stem.lancaster import LancasterStemmer
from nltk.tokenize import RegexpTokenizer

Base_location = ''
dataset_location = os.path.join(Base_location, 'Sentiment140.csv')
corpus = []
labels = []

# Parse tweets and sentiments
with open(dataset_location, 'r', encoding='latin-1') as df:
    for i, line in enumerate(df):
        parts = line.strip().split(',')

        # Sentiment (0 = Negative, 1 = Positive)
        labels.append(str(parts[0].strip()))

        # Tweet
        tweet = parts[5].strip()
        if tweet.startswith('"'):
            tweet = tweet[1:]
        if tweet.endswith('"'):
            tweet = tweet[::-1]

        corpus.append(tweet.strip().lower())

print('Corpus size: {}'.format(len(corpus)))

# Tokenize and stem
tkr = RegexpTokenizer('[a-zA-Z0-9@]+')
stemmer = LancasterStemmer()

tokenized_corpus = []

for i, tweet in enumerate(corpus):
    tokens = [stemmer.stem(t) for t in tkr.tokenize(tweet) if not t.startswith('@')]
    tokenized_corpus.append(tokens)

print(tokenized_corpus)

Тем не менее, я получаю эту ошибку:

TypeError: объект '_io.TextIOWrapper' не может быть подписан

Может кто-нибудь помочь мне понять, как решить проблему?

Заранее спасибо

1 Ответ

0 голосов
/ 27 августа 2018

TL; DR

Чтобы прочитать .csv или структурированные наборы данных, используйте pandas https://pandas.pydata.org/ или любые другие библиотеки данных.


В Long:

Вместо выполнения:

Base_location = ''
dataset_location = os.path.join(Base_location, 'Sentiment140.csv')
corpus = []
labels = []

# Parse tweets and sentiments
with open(dataset_location, 'r', encoding='latin-1') as df:
    for i, line in enumerate(df):
        parts = line.strip().split(',')

        # Sentiment (0 = Negative, 1 = Positive)
        labels.append(str(parts[0].strip()))

        # Tweet
        tweet = parts[5].strip()
        if tweet.startswith('"'):
            tweet = tweet[1:]
        if tweet.endswith('"'):
            tweet = tweet[::-1]

        corpus.append(tweet.strip().lower())

Вы можете просто прочитать файл .csv с пандами, например

import pandas as pd
corpus = pd.read_csv('training.1600000.processed.noemoticon.csv', encoding='latin-1')

Затем используйте функцию .apply() для обработки твитов:

"""
Columns
====

target: the polarity of the tweet (0 = negative, 2 = neutral, 4 = positive)
ids: The id of the tweet ( 2087)
date: the date of the tweet (Sat May 16 23:58:44 UTC 2009)
flag: The query (lyx). If there is no query, then this value is NO_QUERY.
user: the user that tweeted (robotickilldozr)
text: the text of the tweet (Lyx is cool)
"""

from nltk.stem.lancaster import LancasterStemmer
from nltk.tokenize import RegexpTokenizer

import pandas as pd


df = pd.read_csv('training.1600000.processed.noemoticon.csv', 
                 header=None, 
                 names=['target', 'ids', 'date', 'flag', 'user', 'text'],
                 encoding='latin-1')


tokenizer = RegexpTokenizer('[a-zA-Z0-9@]+')
stemmer = LancasterStemmer()

def process_tweet(tweet):
    return [stemmer.stem(token) if not token.startswith('@') else token 
            for token in tokenizer.tokenize(tweet)]

# 1. Cast the column type to string 
# 2. Lowercase it
# 3. Iterate throw each row and get the output from process_tweet()
# 4. # 3. Keep in a new column call `tokenized_text`
df['tokenized_text']= df['text'].str.lower().apply(process_tweet)
...