В настоящее время я пытаюсь создать биграммы и триграммы, чтобы превратить мой корпус из слов только в слова и фразы, используя этот Блокнот в качестве справочного материала. Однако фразы, которые, как я считаю, должны быть взяты из кода, не компилируются.
Вот код, который я использую:
unigram_sentences = LineSentence("*.csv")
for unigram_sentence in it.islice(unigram_sentences, 1, 5):
print (u' '.join(unigram_sentence))
print (u'')
intermediate_directory = os.path.join('.../2015/TEMP')
bigram_model_filepath = os.path.join(intermediate_directory,'bigram_model_all')
%%time
bigram_model = Phrases(unigram_sentences)
bigram_model.save(bigram_model_filepath)
# load the finished model from disk
bigram_model = Phrases.load(bigram_model_filepath)
bigram_sentences_filepath = os.path.join(intermediate_directory,
'bigram_sentences_all.txt')
%%time
with codecs.open(bigram_sentences_filepath, 'w', encoding='utf_8') as f:
for unigram_sentence in unigram_sentences:
bigram_sentence = u' '.join(bigram_model[unigram_sentence])
f.write(bigram_sentence + '\n')
bigram_sentences = LineSentence(bigram_sentences_filepath)
for bigram_sentence in it.islice(bigram_sentences, 1, 5):
print (u' '.join(bigram_sentence))
print (u'')
Практически мои Ins (предложения в униграмме):
- да, но депрессия тревоги самоповреждения влияет на психическое здоровье
- они лучше предупреждают психическое здоровье округа о возможном, прежде чем положить
соленый в эфире
- Штукатурки новостей для Би-би-си для умственного подъема
скорая медицинская помощь
- исправил мое странное настроение этим утром, играя с
макияж hshtg_makeup hshtg_charlottetilbury hshtg_mentalhealth
В то время как мои ауты (биграмные предложения):
- да, но депрессия тревожности self_harm относится к психическому здоровью
- они лучше предупреждают психическое здоровье округа о возможном, прежде чем они выпустят соленый эфир в эфир
- bbc_news пластыри_ для ума the_rise в психическом здоровье first_aid
- исправил мое странное настроение этим утром, играя с косметикой hshtg_makeup hshtg_charlottetilbury hshtg_mentalhealthList item
В то время как код сочетает в себе такие фразы, как bbc_news и the_rise, я действительно ожидал, что в нем будет группироваться mental_health.
Вопрос: что я делаю не так? : /
Спасибо за вашу помощь и извинения за грязный пост первого таймера!
Алина