Соскребание текста с веб-сайта без HTML с JSOUP - PullRequest
0 голосов
/ 24 апреля 2019

У меня был проект, работающий с удалением HTML с веб-сайта, но сейчас я пробую другой сайт, который не содержит HTML, и я не могу отфильтровать то, что я очищаю.

Я использую JSOUP, чтобы вычистить статистику НХЛ из сети, чтобы поместить ее в собственную базу данных для последующего использования в нейронной сети (надеюсь).Мне удалось успешно собрать данные с веб-сайтов, использующих HTML, таких как

https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++

Но теперь я обнаружил API НХЛ, который предоставит мне гораздо большеинформация, но у меня возникли проблемы с этим.

ex.) https://statsapi.web.nhl.com/api/v1/game/2017021211/boxscore

Этот веб-сайт полностью текстовый, и поэтому я не могу отфильтровать то, что я получаю.Каждый раз, когда я пытаюсь это почистить, я просто получаю весь текст в одном большом теле.Как я могу точно соскоблить это?Я пытаюсь (как минимум) получить команды в игре и количество голов каждой команды.

Пример того, что я делал на веб-сайте HTML

Document tester = Jsoup
    .connect("https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++")
    .get();

Elements rows = tester.getElementsByTag("tr");

Прикрепленный код успешно получает всю статистику с веб-сайта HTML, но когда я пытаюсь сделать это с API НХЛ, яполучить все текстовое тело сайта в одну строку.

...