Как решить "ValueError: установка элемента массива с последовательностью" - PullRequest
0 голосов
/ 23 сентября 2019

Вот пример моего набора данных

d = {'TEXT': ['History: A 59  year  old female, was sent to R/O lung nodule. Findings:  Lungs and airway:  The study reveals a speculated nodule with pleural tagging at anterior basal segment of LLL, measured 1.9x1.4x2.0 cm in size. Pleural tagging is seen. Partial encasement of subsegmental bronchi is seen.  CA lung is considered.','History: A 59  year  old woman with history of lung cancer S/P left lower lobectomy with close to pleural margin and left adrenal nodule , was sent for evaluation before post  operative RT. Findings: Comparison is made to the prior study on 03/02/2009. Chest:   The study reveals evidence of left lower lobectomy with compensatory hyperinflation of the LUL.']}
df2 = pd.DataFrame(data=d)

Я хочу реализовать скрытое выделение Diritchlet (LDA) для генерации контекста для каждого предложения.Я отдельно обучил свою модель этому и хочу проверить эти данные.

Чтобы добраться до LDA, я разбиваю текст на предложения, поскольку мне интересно классифицировать каждое предложение с темой.После токенизации предложения я внедряю TFIDF, а затем в LDA.При достижении LDA я получаю эту ошибку.Ниже приведен мой код.

df2["sent_token"] = df2["TEXT"].apply(nltk.sent_tokenize)
vectoriser = TfidfVectorizer(tokenizer=identity_tokenizer,stop_words='english',lowercase=False)
df2['tfidf1'] = vectoriser.fit_transform(df2['sent_token'])
lda = LatentDirichletAllocation(n_components =5)
df2['tfidf_lda']= lda.fit_transform(df2['tfidf1'])

Вот где я получаю эту ошибку «ValueError: установка элемента массива с помощью последовательности».Проходя через подобные ошибки, ValueError: установка элемента массива с последовательностью Я обнаружил, что это может быть из-за того, что строки имеют разное количество предложений, приводящих к разной длине или последовательности.Но это гетерогенность, которая у меня есть, и я не совсем уверен, в чем проблема.Пожалуйста, помогите !!

...