Я преобразовал столбец из CSV в список, а затем строку для токенизации. После преобразования в строку я получаю \ n во всем. Я пытаюсь либо предотвратить это полностью, либо удалить его после того, как это произойдет.
До сих пор я пытался заменить, раздеть и полоску безрезультатно.
Вот версия, в которой я попробовал .replace () после преобразования списка в строку.
df = pd.read_csv('raw_da_qs.csv')
question = df['question_only']
question = question.str.replace(r'\d+','')
question = str(question.tolist())
question = question.replace('\n','')
tokenizer = nltk.tokenize.RegexpTokenizer('\w+')
tokens = tokenizer.tokenize(question)
и я получаю токены вроде 'nthere' и 'nsuicide'