У меня есть DataFrame, я хотел разбить текст на слова, но я получаю квадратную скобку между наборами слов.Я использую код, упомянутый ниже.
for index1, row1 in df.iterrows():
words1 = set([word for word in str(row1.values).split()])
Я создаю DataFrame из файла CSV, затем разбив его на слова.
0,"['cell', 'study', 'protein', 'result', 'effect', 'gene', 'treatment', 'may', 'level', 'mouse']"
Вывод ->
{'effect', 'result', 'treatment', '[0', 'protein', 'may', 'level', "'cell", "mouse']", 'study', 'gene'}
но желаемый вывод -
{'effect', 'result', 'treatment', '0', 'protein', 'may', 'level', 'cell', 'mouse', 'study', 'gene'}
Почему я получаю список [0', 'protein', 'may', 'level', "'cell", "mouse']
в выводе?
Пожалуйста, предложите возможные способы его токенизации.