У меня есть датафрейм (тег) с 9153 строками и 3 столбцами.
Здесь первые 5 строк.
pk tag tweet
0 148 unknown 9491
1 149 ignore 9513
2 150 real 8461
3 151 fake 8639
4 152 unknown 8385
То, что я пытаюсь сделать, это посмотреть, получает ли твит два тега, и эти теги отличаются друг от друга, как и эти,
pk tag tweet
5287 5436 unknown 16600
8477 8626 real 16600
тогда я исключаю эти твиты из фрейма данных. но если твит получит два тега сравнения, тогда примите твит, и он не будет удален.
Чтобы решить эту проблему, я создал новый фрейм данных, состоящий из твита №. и его количество тегов
x=pd.DataFrame(tag['tweet'].value_counts())
x.reset_index(inplace=True)
здесь первые 5 строк x фрейма данных, некоторые твиты получают 3 или даже больше (до 15) тегов, но меня интересует только твиты, получившие два тега
index tweet
0 8252 15
1 9200 15
2 8646 13
3 8774 13
4 8322 13
Затем создайте список, в котором нет твита. который имеет только два тега
tweet_no=[]
for i in x.itertuples():
if i.tweet==2:
tweet_no.append(i.index)
но я застрял на том, как сравнивать, если твиты имеют похожие или разные теги, и удалял, если они имеют разные теги, и принимал, если они имеют похожие теги.