Похоже, что метод, который вы используете для разбора HTML, падает при встрече с юникодом.Есть модуль BeautifulSoup, который отлично подходит для разбора любых веб-сайтов, и он прекрасно справляется с юникодом.Попробуйте в интерактивном режиме:
>>> import urllib, BeautifulSoup
>>> html = urllib.urlopen( 'http://www.bbc.co.uk/hindi/' ).read()
>>> soup = BeautifulSoup.BeautifulSoup( html )
>>> print soup.find( 'title' ).contents
[u'BBC Hindi - \u092a\u0939\u0932\u093e \u092a\u0928\u094d\u0928\u093e']
Мой терминал не может печатать эти символы, но, тем не менее, вы обычно видите, что текст на хинди должен работать и здесь.