Разбор HTML (после отправки формы) - PullRequest
0 голосов
/ 28 октября 2011

У меня есть страница PHP / HTML, с которой я хочу получать данные, но после отправки формы.

Как:

  1. Открыть сайт
  2. Введите это содержимое
  3. 1010 * нажмите кнопку *
  4. Разбор нового сайта для контента

Какой самый быстрый способ достичь этого?

Я начал с веб-просмотра - слишком много ненужного, поэтому я перешел на org.apache.http, и это выглядело нормально.

Вот часть моего кода:

HttpClient httpClient = new DefaultHttpClient();
    HttpPost httpPost = new HttpPost("WEBSITE NAME");
    List<NameValuePair> nameValuePairs = new ArrayList<NameValuePair>();
    nameValuePairs.add(new BasicNameValuePair("THE NAME OF THE SEARCH B OX", "WORD I WANT TO BE PUT IN"));


        httpPost.setEntity(new UrlEncodedFormEntity(nameValuePairs));

        HttpResponse response = httpClient.execute(httpPost);

        HttpEntity httpEntity = response.getEntity();


        String sourceCode = EntityUtils.toString(httpEntity);

Итак, в конце httpEntity получил HTML - и я застрял. Есть ли способ, как его проанализировать, чтобы получить, например, - найти таблицу и получить содержимое второй ячейки второй строки?

Ответы [ 2 ]

1 голос
/ 28 октября 2011

Небольшая и мощная библиотека, которую я могу порекомендовать, - это HtmlCleaner (106 кБ, htmlcleaner.sf.net). Он анализирует практически любой HTML, независимо от того, насколько он уродлив, превращает его в XML, а затем позволяет получить доступ к определенным его частям. У них также есть хорошие примеры на их странице.

0 голосов
/ 29 октября 2011
...