Большое количество образцов документов - PullRequest
1 голос
/ 15 июля 2009

Кто-нибудь знает, где я могу найти огромное хранилище образцов документов по различным предметам? Я ищу по крайней мере несколько тысяч документов (Office или PDF должен быть в порядке), чтобы протестировать некоторые алгоритмы ... Документы должны иметь общие позиции - например, тысяча документов, связанных с программированием, еще тысяча, связанных с экология и т.д ...

Кто-нибудь знает, где я могу получить это?

Ответы [ 3 ]

6 голосов
/ 15 июля 2009

Вы пробовали использовать википедию? Создайте скрипт, который:

  1. Звонит http://en.wikipedia.org/wiki/Special:Random, чтобы получить случайную страницу

  2. Следует за результирующим перенаправлением, добавляя? Printable = yes к концу URL (чтобы удалить макет crud) - используйте wget для этих двух шагов, или его эквивалент, он выполнит перенаправление для вы.

  3. Передает полученное содержимое html через конвертер html-> pdf.

  4. Повторите 1000 раз.

Это даст вам широкий выбор контента.

2 голосов
/ 15 июля 2009

Вы можете просто использовать расширенный поиск в API поиска Yahoo, чтобы указать тип документа, который вы ищете.

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

Если вы хотите большое количество документов в формате Word, укажите нужный тип документа, а затем выполните поиск на основе предварительно выбранных ключевых слов. Это должно вернуть вам кучу документов.

Вы также можете очистить расширенный поиск в Google и таким образом получить ссылки на документы, указав fileType (из случайного списка), например:

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

0 голосов
/ 15 июля 2009

Вкл. internetzzz?

Редактировать: Я? Не быть полезным? :)

import mechanize, urllib, os

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
    br.open(template % i)
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
    urllib.urlretrieve(url, os.path.basename(url))
...