Я использую данные социальной сети Flickr и пытаюсь уменьшить размер, фильтруя набор данных (количество узлов) по степени. Я хотел бы работать только с лучшими 50 узлами, имеющими наивысшую степень.После создания списка из 50 лучших узлов с наивысшей степенью я не могу применить к исходному графику.
источник набора данных: http://networkrepository.com/soc-flickr.php
Мой текущий код:
import networkx as nx
from networkx import from_scipy_sparse_matrix as sm
from scipy import io
flickr = io.mmread(os.path.join('soc-flickr','soc-flickr.mtx'))
Gflickr = sm(flicker)
print (nx.info(Gflickr))
# Out: Type: Graph
# Out: Number of nodes: 513969
# Out: Number of edges: 3190452
# Out: Average degree: 12.4150
for n, d in Gflickr.degree():
print('%s %d' % (n, d))
top_50 = sorted(Gflickr.degree, key=lambda x: x[1], reverse=True)
top_50 = top_50[:50]
top_50
Out: [(9205, 4369),
(3843, 4196),
(1552, 4011),
(75, 4004),
(1641, 3810),
(5814, 3779),....
# took the first item from the lists, which should be
the index of the node in the original graph
node_index_list = [item[0] for item in top_50]
S = nx.to_scipy_sparse_matrix(Gflickr, nodelist= [9205,3843,1552,75,6517,11816,....,42004,109870,70193,30540])
#create a graph from the sparse matrix
top_50_graph =sm(S)
print(nx.info(top_50_graph))
# here is the issue...
Out: Type: Graph
Number of nodes: 50
Number of edges: 0
Average degree: 0.0000