ProArticle Vector
0 Iran jails blogger 14 years An Iranian weblogg... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
1 UK gets official virus alert site A rapid aler... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
2 OSullivan could run Worlds Sonia OSullivan ind... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
3 Mutant book wins Guardian prize A book evoluti... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
4 Microsoft seeking spyware trojan Microsoft inv... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
Выше приведен фрагмент data.head () из векторизованной новостной статьи.
type(data.Vector[0])
- это list
Мне нужно использовать кластеризацию KMeans на этих векторизованных данных, но списки не позволят мне.
data.Vector.shape
равно 179
, а data.Vector[0].shape
равно 8868
.
Как я могу удалить список, или если я не могу, то как я могу использовать его для кластеризации данных? Возможно, я мог бы получить фрейм данных следующим способом, а затем запустить на нем PCA.
Ожидаемый результат выглядит следующим образом: ![enter image description here](https://i.stack.imgur.com/TCnNZ.png)