Question

Кто-нибудь знает, где я могу найти огромное хранилище образцов документов по различным предметам? Я ищу по крайней мере несколько тысяч документов (Office или PDF должен быть в порядке), чтобы протестировать некоторые алгоритмы ... Документы должны иметь общие позиции - например, тысяча документов, связанных с программированием, еще тысяча, связанных с экология и т.д ...

Кто-нибудь знает, где я могу получить это?

Kazar · Answer 1 · 15 июля 2009

Вы пробовали использовать википедию? Создайте скрипт, который:

Звонит http://en.wikipedia.org/wiki/Special:Random, чтобы получить случайную страницу
Следует за результирующим перенаправлением, добавляя? Printable = yes к концу URL (чтобы удалить макет crud) - используйте wget для этих двух шагов, или его эквивалент, он выполнит перенаправление для вы.
Передает полученное содержимое html через конвертер html-> pdf.
Повторите 1000 раз.

Это даст вам широкий выбор контента.

Jon · Answer 2 · 15 июля 2009

Вы можете просто использовать расширенный поиск в API поиска Yahoo, чтобы указать тип документа, который вы ищете.

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

Если вы хотите большое количество документов в формате Word, укажите нужный тип документа, а затем выполните поиск на основе предварительно выбранных ключевых слов. Это должно вернуть вам кучу документов.

Вы также можете очистить расширенный поиск в Google и таким образом получить ссылки на документы, указав fileType (из случайного списка), например:

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

Wojciech Bederski · Answer 3 · 15 июля 2009

Вкл. internetzzz?

Редактировать: Я? Не быть полезным? :)

import mechanize, urllib, os

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
    br.open(template % i)
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
    urllib.urlretrieve(url, os.path.basename(url))

Большое количество образцов документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Большое количество образцов документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы