Создать текстовый файл из списка слов на веб-странице - PullRequest
0 голосов
/ 02 июня 2011

Я пытаюсь создать простой текстовый файл, содержащий список слов, который находится на веб-странице. Проблема в том, что список разделен на несколько страниц.

http://www.whonamedit.com/eponyms/A/?start=50&maxrows=25

Это то, что я имею в виду. Как и для буквы А, мне нужны все 13 страниц слов, а также каждая буква алфавита.

Я думал о том, чтобы, возможно, изменить веб-сканер, чтобы выполнить эту задачу, это будет самый простой способ?

Я предпочитаю Java, но с Python все в порядке.

Извините, если ответ очевиден, но любые толчки в правильном направлении будут СЛИШКОМ признательны!

Ответы [ 2 ]

0 голосов
/ 02 июня 2011

Предполагая, что это специально для сайта whonamedit, вы можете сделать следующее:

List<String>getWordsOnPage(String url) {
  // read words within <ul class="result-list"> element.
}

void getAllWords() {
  List<String> all = new ArrayList<String>();
  for (char letter = 'A'; letter <= 'Z'; ++letter) {
    for (int start = 0; true; start += 25) {
      List<String> page = getWordsOnPage("http://www.whonamedit.com/eponyms/" + letter + "/?start=" + start + "&maxrows=25");
      if (page.isEmpty()) {
        break;
      }
      all.addAll(page);
    }
  }
}
0 голосов
/ 02 июня 2011

Я использую HtmlUnit для написания пауков

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...