Расширенные возможности Excel / Visual для анализа веб-сайтов - PullRequest
0 голосов
/ 05 декабря 2011

У меня есть ссылки на 500 Wikipedia / Wikimedia Wikis, Talk Pages и страницы истории в документе Excel, которые я хотел бы проанализировать, чтобы определить, например, как многие из вики упоминают «рекламные» или «рекламные» на странице Talk. сколько времени в среднем вики, как часто редактируются и т. д.

Я выяснил, как написать пользовательскую функцию Visual Basics, которая получит полный HTML. Есть ли плагин или какой-нибудь другой способ получить текст - как он появляется на экране - между двумя тегами или идентификаторами, чтобы я мог извлечь нужную информацию?

Я бизнес-профессионал с очень ограниченным опытом программирования по сравнению с профессиональным разработчиком. Но если вы можете указать мне правильное направление и некоторые хорошие учебники, я могу научиться. Мне также было бы интересно просто заплатить кому-то немного денег на стороне, если кто-то может помочь.

1 Ответ

0 голосов
/ 05 декабря 2011

Вы можете использовать XML Parser и Regex для поиска текста в документе HTML.

Чтобы получить текст в браузере, напишите функцию для удаления всех тегов.Хотя это может быть не всегда точно, поскольку CSS и Javascript могут изменять то, что видно на экране.

...