Поскольку проблема указана, yourResult
- это список списков, поскольку split(' ')
возвращает список, в то время как это должен быть список строк.CountVectorizer
делает разделение для вас, поэтому нет необходимости делать это заранее.Это должно работать просто отлично:
tag_dtm = vectorizer.fit_transform(tag_data["Tags"])
Если вы хотите полностью контролировать работу расщепления внутри CounVectorizer
, вы можете предоставить свой собственный токенизатор:
vectorizer = CountVectorizer(tokenizer=lambda s: s.split(' '))
tag_dtm = vectorizer.fit_transform(tag_data["Tags"])