Я вчера писал здесь о создании модели линейной регрессии текста для прогнозирования настроений, что мне интересно, после того, как нижний регистр текста, удаление любых стоп-слов / знаков препинания и цифр, у меня остались странные строки на некоторых из моего текстаособенности.
['_______',
'__________',
'__________ pros',
'____________',
'____________ pros',
'_____________',
'_____________ pros',
'aa',
'aa waist',
'ab',
'abdomen',
'ability',
'able',
'able button',
'able buy',
Я думаю, что это возможно, потому что для знаков препинания и цифр я заменил их пробелом? я все еще не совсем уверен.
Другой вопрос: как мне правильно структурировать это для линейной регрессии? я должен представлять каждое предложение колонкой их особенностей и подавать это в сеть? но как бы я справился, если матрица разрежена?
Извините, что только узнал больше о предварительной обработке текста
вот мои шаги по очистке: давайте предположим, что это предложение «это платье из прекрасной платины»женственна и идеально сидит, удобна в носке и удобна! Настоятельно рекомендуем! '
строчные буквы
AllSentences [' Sentence '] = AllSentences [' Sentence ']. map (lambda x: x.lower ())
2. удалить стоп-слова
stop = stopwords.words('english')
AllSentences['Sentences_without_stopwords'] = AllSentences['Sentence'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)]))
3. удалить цифры
AllSentences['Sentences_without_stopwords_punc'] = AllSentences['Sentences_without_stopwords'].apply(lambda x: re.sub(r'[^\w\s]', '',x))
AllSentences['Sentences_without_stopwords_punc'] = AllSentences['Sentences_without_stopwords_punc'].apply(lambda x: re.sub(r'\d+', '',x))
тест / разделение поезда, tfidvectorise
X_train, X_test, y_train, y_test = train_test_split(X, Y,
test_size=0.30, random_state=42)
vect_word = TfidfVectorizer(max_features=20000, lowercase=True,
analyzer='word',stop_words= 'english',ngram_range=(1,3),dtype=np.float32)
tr_vect = vect_word.fit_transform(X_train)
ts_vect = vect_word.transform(X_test)
, который дал мне вышеуказанный вывод для имен объектов?