Привет, я столкнулся с проблемой, из-за которой у меня есть строки с двумя столбцами массива слов.
column1, column2
["a", "b" ,"b", "c"], ["a","b", "x", "y"]
В основном я хочу посчитать вхождение каждого слова между столбцами, чтобы в итоге получить два массивы:
[1, 2, 1, 0, 0],
[1, 1, 0, 1, 1]
Таким образом, «a» появляется один раз в каждом массиве, «b» появляется дважды в столбце 1 и один раз в столбце 2, «c» появляется только в столбце 1, «x» и «y» только в колонке2. И так далее и так далее.
Я пытался взглянуть на функцию CountVectorizer из библиотеки ml, но не уверен, работает ли она по строкам, массивы в каждом столбце могут быть очень большими? И 0 значений (где одно слово появляется в одном столбце, а не в другом), похоже, не переносится.
Любая помощь приветствуется.