Я только что начал удалять основной текст с веб-страниц и в настоящее время использую библиотеку HTMLAgilityPack C #.У меня был некоторый успех с boxscores от rivals.yahoo.com (спорт - это мое дело, так почему бы не поцарапать что-нибудь интересное?), Но я застрял на страницах с обзорами игр НХЛ.Я думаю, что это довольно интересная проблема, поэтому я бы опубликовал ее здесь.
Страница, которую я тестирую, выглядит следующим образом: http://www.nhl.com/scores/htmlreports/20102011/GS020079.HTM
На первый взгляд, это выглядит как простой текст без ajaxили вещи, чтобы испортить простой скребок.Тогда я понимаю, что не могу щелкнуть правой кнопкой мыши из-за некоторого JavaScript, поэтому я обхожу это вокруг.Я щелкаю правой кнопкой мыши в Firefox и получаю xpath домашней команды, используя XPather, и получаю:
/html/body/table[@id='MainTable']/tbody/tr[1]/td/table[@id='StdHeader']/tbody/tr/td/table/tbody/tr/td[3]/table[@id='Home']/tbody/tr[3]/td
Когда я пытаюсь получить этот узел / внутренний текст, htmlagilitypack не найдет его.Кто-нибудь видит что-то странное в исходном коде страницы, которое может остановить меня?
Я новичок в этом и все еще учусь, как люди могут помешать мне разобраться, любые советы или рекомендации приветствуются!
ps Я соблюдаю все правила сайта, касающиеся ботов и т. Д., Но я заметил это странное поведение и расценил его как вызов.