Ошибка обработки данных в Gensim LDA с использованием Pandas Dataframe - PullRequest
0 голосов
/ 06 января 2019

Я использую Gensim LDA для моделирования темы. Я использую панды DataFrame для обработки. но я получаю ошибку

TypeError: декодирование в str: нужен объект, похожий на байты, найдена серия

Мне нужно обрабатывать данные только с использованием панд, входные данные похожи (одна строка)

 PMID           Text
12755608    The DNA complexation and condensation properties
12755609    Three proteins namely protective antigen PA edition
12755610    Lecithin retinol acyltransferase LRAT catalyze

Мой код

data = pd.read_csv("h1.csv", delimiter = "\t")
data = data.dropna(axis=0, subset=['Text'])
data['Index'] = data.index
data["Text"] = data['Text'].str.replace('[^\w\s]','')
data.head()

def lemmatize_stemming(text):
    return stemmer.stem(WordNetLemmatizer().lemmatize(text, pos='v'))

def preprocess(text):
    result = []
    for token in gensim.utils.simple_preprocess(text):
        if token not in gensim.parsing.preprocessing.STOPWORDS and len(token):
            result.append(lemmatize_stemming(token))
    return result


input_data = data.Text.str.strip().str.split('[\W_]+')
print('\n\n tokenized and lemmatized document: ')
print(preprocess(input_data))
...