У меня большой набор новостных статей, если быть точным, 48000.Я сделал ngrams каждой статьи, где n = 3
.мои нграммы выглядят так:
[[(tikro, enters, into), (enter, into, research), (into, research, and),...]]
теперь мне нужно составить двоичную матрицу для каждого гальки и статьи:
article1 article2 article3
shingle1 1 0 0
shingle2 1 0 1
shingle3 0 1 0
Сначала я сохранил все дранки в одном списке,После этого я попытался проверить, работает ли он.
for art in article:
for sh in ngrams:
if sh in art:
print('found')
, поскольку один установлен, а другой является строкой, он не работает.какие-нибудь предложения, как заставить это работать?или любой другой подход?
спасибо