Давайте представим, что это ваш datafame:
import pandas as pd
df = pd.DataFrame({ "Text": ['bla bla bla', 'Hello', 'Other sentence', 'Lets see']})
Вы можете получить синоним своего кода, используя функцию agg
:
text = df['Text'].agg(lambda x: ' '.join(x.dropna()))
text
Результат:
'bla bla bla Hello Other sentence Lets see'
Затем можно токенизировать:
tokenized_word=word_tokenize(text)