Сбор данных с несовместимых HTML-страниц - JSoup - PullRequest
1 голос
/ 18 ноября 2011

Я пытаюсь получить много данных с нескольких страниц, но это не всегда соответствует.Вот пример HTML-кода, с которым я работаю !:

Пример HTML

Мне нужно получить что-то вроде: Team |Команда |Приведите все в разные переменные или списки.

Мне просто нужна помощь с тем, с чего начать, потому что основная таблица, с которой я работаю на нескольких страницах, не одинакова для всех.

heresмой java до сих пор:

    try {
        Document team_page = Jsoup.connect("http://www.soccerstats.com/team.asp?league=" + league + "&teamid=" + teamNumber).get();
        Element home_team = team_page.select("[class=homeTitle]").first();
        String teamName = home_team.text();
        System.out.println(teamName + "'s Latest Results: ");

        Elements main_page = team_page.select("[class=stat]");
        System.out.println(main_page);

    } catch (IOException e) {
        System.out.println("unable to parse content");
    }

Я получаю лигу и teamid от различных методов моей программы.

Спасибо!

1 Ответ

0 голосов
/ 18 ноября 2011

Да.Это одна из проблем, связанных с очисткой веб-страниц.

Вам необходимо выяснить одну или несколько эвристик, которые будут извлекать необходимую вам информацию на всех страницах, к которым вам нужен доступ.Там нет волшебной пули.Просто тяжелая работа.(И вам придется делать это снова и снова, если сайт меняет свой макет страницы.)


Лучшей идеей является запрос информации в формате XML или JSON с использованием RESTful-интерфейсов сайта или сайтов.... при условии, что они существуют и доступны для вас.

(И если вы продолжите использовать веб-очистку, ознакомьтесь с Условиями обслуживания сайта, чтобы убедиться, что ваша деятельность приемлема.)

...