Прежде всего, я хочу извиниться, потому что я новичок в анализе данных в Твиттере.
Я хочу создать пользовательскую сеть хэштегов, где я подключаю пользователей в зависимости от их хэштегов в твиттере.У меня уже есть твиты, хранящиеся в MongoDB, но я не могу извлечь все хэштеги из объекта расширенных сущностей, и, честно говоря, я немного растерялся, как это сделать, не могли бы вы, лучший из них, добиться этого?
Я пытался сохранить хэштеги в новом столбце в кадре данных, но я мог получить только один, который не работает, потому что мне нужно учитывать все хэштеги в твите, чтобы установить соединения.
У меня есть следующий код для получения хэштегов во втором фрейме данных
def get_tweet_data(df2):
df2["user_id"] = df1["user"].apply(lambda x: x["id"])
df2["screen_name"] = df1["user"].apply(lambda x: x["screen_name"])
df2["hashtags"] = df1["entities"].apply(lambda x: x["hashtags"][0]["text"] if x["hashtags"] else np.nan)
return df2
, который в результате дает мне:
Где я ищу что-то вроде этого:
Но тогда у меня возникает другая проблема, мне нужно подключить каждого пользователя твита согласнок своим хэштегам, чтобы пользователь мог подключаться к пользователям с #Puertos, пользователям с #Pemex и пользователям с #abierto.Что я не знаю, как это сделать.
Чтобы сделать график im, используя следующий код:
G = nx.from_pandas_edgelist(
df2,
source = "screen_name",
target = "hashtags",
create_using = nx.Graph())
Опять мои извинения, я только начинаю с этого.