Как мне почистить этот текст с машинного сайта Wayback 2004 года / почему код работает неправильно? - PullRequest
1 голос
/ 03 февраля 2020

примечание: я раньше здесь не задавал вопрос, и до сих пор не уверен, как сделать его разборчивым, поэтому дайте мне знать о путанице или советах, как сделать это более читабельным

Я пытаюсь загрузить информацию о пользователях с 2004/06 по 2004/09 гг. Inte rnet Архивные снимки с makeoutclub.com (причудливой, ныне несуществующей социальной сети, ориентированной на альтернативных фанатов musi c, которая была создана). в 2000 году он стал одной из старейших социальных сетей на основе профилей в Inte rnet) с использованием r, * в частности, пакета rcrawler. До сих пор я был в состоянии использовать пакет для получения имен пользователей и ссылок на профили в кадре данных, используя xpath для идентификации нужных мне элементов, но почему-то он не работает ни для разделов местоположения, ни для областей интересов, оба из которых являются просто текстом вместо других элементов в html. Для идеи сайта / данных, о которых я говорю, вот страница, на которой я переписываю свой xpath: https://web.archive.org/web/20040805155243/http: // www.makeoutclub.com/03/profile/html/boys/2.html

Я был тестирование моих выражений xpath с помощью функции ContentScraper rcrawler, которая извлекает набор элементов, соответствующих указанному xpath, с одной указанной страницы c сайта, которую необходимо сканировать. Вот мое функционирующее выражение, которое идентифицирует имена пользователей и ссылки на сайте, с указанной страницей c, которую я использую, и возвращает вектор:

testwaybacktable <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = c("//tr[1]/td/font/a[1]/@href", "//tr[1]/td/font/a[1]"), ManyPerPattern = TRUE)

А вот плохой, где я проверяю «местоположение», которое в итоге возвращает пустой вектор

testwaybacklocations <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[1]/td/font/text()[2]", ManyPerPattern = TRUE)

А другой плохой, этот ищущий текст в разделе «интересы»:

testwaybackint <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[2]/td/font/text()", ManyPerPattern = TRUE)

Используемые здесь выражения xpath, кажется, выбирают нужные элементы, когда я пытаюсь найти их в Chrome Inspect вещь, но программа, кажется, не читает их. Я также попытался выбрать только один элемент для каждого поля, и он все еще производил пустой вектор. Я знаю, что этот инструмент может читать текст на этой веб-странице - я тестировал другой случайный фрагмент текста - но почему-то я ничего не получаю при запуске этого теста. Что-то не так с моим выражением xpath? Должен ли я использовать разные инструменты для этого? Спасибо за ваше терпение!

* Это для цифрового гуманитарного проекта, который, будем надеяться, будет использовать некоторые nlp для анализа, особенно языка вокруг пола и сексуальности, в диалоге с некоторым nlp анализом текстов самых популярных групп на сайте. .

...