У меня был проект, работающий с удалением HTML с веб-сайта, но сейчас я пробую другой сайт, который не содержит HTML, и я не могу отфильтровать то, что я очищаю.
Я использую JSOUP, чтобы вычистить статистику НХЛ из сети, чтобы поместить ее в собственную базу данных для последующего использования в нейронной сети (надеюсь).Мне удалось успешно собрать данные с веб-сайтов, использующих HTML, таких как
https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++
Но теперь я обнаружил API НХЛ, который предоставит мне гораздо большеинформация, но у меня возникли проблемы с этим.
ex.) https://statsapi.web.nhl.com/api/v1/game/2017021211/boxscore
Этот веб-сайт полностью текстовый, и поэтому я не могу отфильтровать то, что я получаю.Каждый раз, когда я пытаюсь это почистить, я просто получаю весь текст в одном большом теле.Как я могу точно соскоблить это?Я пытаюсь (как минимум) получить команды в игре и количество голов каждой команды.
Пример того, что я делал на веб-сайте HTML
Document tester = Jsoup
.connect("https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++")
.get();
Elements rows = tester.getElementsByTag("tr");
Прикрепленный код успешно получает всю статистику с веб-сайта HTML, но когда я пытаюсь сделать это с API НХЛ, яполучить все текстовое тело сайта в одну строку.