Вы используете слова в качестве уникальных идентификаторов, поэтому у вас нет индексных данных.Каждый ваш узел закодирован словом.Более того, вы сначала строите график, который не используете должным образом (после всех ваших вопросов, я действительно могу сказать, что он вам не нужен) и теряете информацию о языке, а затем вы пытаетесь воссоздать ваши данные с некоторой потерянной информацией.В своем текущем вопросе вы уже потеряли информацию о положении слов, поэтому вы не можете делать то, что хотите (если вы не индексируете все свои узлы, как я написал в своем ответе на предыдущий вопрос).
Я рекомендую вамиспользуйте NLTK с Индийским корпусом (УЖЕ подготовлено, отфильтровано и помечено):
from nltk.corpus import indian
nltk.corpus.indian.words('hindi.pos')
Имеет хинди, деванагари и другие языки.Вы можете тренировать токенайзер Punkt (он может быть обучен автоматически) и выполнять всю свою работу.Более того, существуют модификации NLTK для индийских языков или специальный токенайзер хинди .Вам не нужно делать всю работу вручную.Вам не нужен networkx.Все уже написано другими программистами.