Токенизация списка слов в DataFrame - PullRequest
0 голосов
/ 22 апреля 2020

У меня есть текущий DataFrame со столбцом, который содержит список слов:

|words|
[New York, New Year,people,happy]

Я хочу маркировать элементы в моих списках и получить результат, как показано ниже, если это возможно, для меня важно, чтобы слова в списке нет разделения:

|words|                           |unigrams|
[New York, New Year,people,happy] [New York, New Year,people,happy]

Когда я использую текущий код, все слова в списке разделяются, и я не нашел ничего в документации nltk, чтобы получить желаемый результат. Я также попытался обойти модуль mwe в nltk , но я не знаю, как использовать его в моем случае, так как у меня нет предложений:

test["unigrams"] = test["name"].apply(nltk.word_tokenize)

Код Mwe:

    #Tokenize my list of words by using the nltk.tokenize.mwe Module
tokenized_final = []
mwe = MWETokenizer()
for x in dd['name']:
    # Calliing preprocess text function
    tokenizer = MWETokenizer(x)
    print(tokenizer)
    tokenized_final.append(tokenizer) 

result from the the code above:
<nltk.tokenize.mwe.MWETokenizer object at 0x000001AF674A5C48>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...