У меня есть текущий DataFrame со столбцом, который содержит список слов:
|words|
[New York, New Year,people,happy]
Я хочу маркировать элементы в моих списках и получить результат, как показано ниже, если это возможно, для меня важно, чтобы слова в списке нет разделения:
|words| |unigrams|
[New York, New Year,people,happy] [New York, New Year,people,happy]
Когда я использую текущий код, все слова в списке разделяются, и я не нашел ничего в документации nltk, чтобы получить желаемый результат. Я также попытался обойти модуль mwe в nltk , но я не знаю, как использовать его в моем случае, так как у меня нет предложений:
test["unigrams"] = test["name"].apply(nltk.word_tokenize)
Код Mwe:
#Tokenize my list of words by using the nltk.tokenize.mwe Module
tokenized_final = []
mwe = MWETokenizer()
for x in dd['name']:
# Calliing preprocess text function
tokenizer = MWETokenizer(x)
print(tokenizer)
tokenized_final.append(tokenizer)
result from the the code above:
<nltk.tokenize.mwe.MWETokenizer object at 0x000001AF674A5C48>