Поскольку вы уже разложили свои предложения по токенам, CountVectorizer
может не потребоваться для этого.
Я написал MultiLabelCounter()
здесь , который может решить вашу проблему.
import pandas as pd
x = [["Harry Potter","Batman"], ["Batman", "Superman", "Lord of the Rings"]]
mlc = MultiLabelCounter()
mlc.fit_transform(x)
# [[1, 1, 0, 0], [1, 0, 1, 1]]
mlc.classes_
# ['Batman', 'Harry Potter', 'Lord of the Rings', 'Superman']