Я пытаюсь сгруппировать твиты вместе в pandas df на основе хэштегов, которые также находятся в отдельном столбце.
import pandas as pd
data = {'tweets':['I #love #dogs','I hate #cats','Missing my #dogs', 'I love sardines in mustard sauce', 'Hello world'],'hashtags':['love dogs','cats','dogs','NaN','NaN']}
df = pd.DataFrame(data, columns = ['tweets', 'hashtags'])
df
Я создал набор уникальных хэштегов
array = df.hashtags.apply(str.split)
hashtags_unique = set(x for l in array for x in l)
hashtags_unique
Я хочу, чтобы результатом был фрейм данных с каждым твитом, сгруппированным по уникальному хэштегу и его собственной строке, если он не содержит хэштегов,Твиты с более чем одним хэштегом будут объединены в обе строки:
data2 = {'merged_tweets':['I love dogs Missing my dog','I hate cats','I love dogs', 'I love sardines in mustard sauce','Hello world'],'merged_on':['dogs','cats','love','NaN','NaN']}
df2 = pd.DataFrame(data2, columns = ['merged_tweets','merged_on'])
df2