Где я могу скачать бесплатный текстовый набор данных? - PullRequest
3 голосов
/ 31 марта 2010

Я хочу провести небольшое тестирование и тестирование производительности для полнотекстового поиска, поэтому набор данных должен иметь следующие качества:

  • 10000 - 100000 записей.
  • хорошая дисперсия английских слов.
  • В формате CSV или Excel - т.е. Я не хочу получать к нему доступ через API.

Было бы идеально, например, книги или фильмы с полями заголовка и описания. Я просматривал репозиторий машинного обучения UCI, но он был слишком ориентирован на число.

Ответы [ 3 ]

2 голосов
1 голос
/ 31 марта 2010

Используйте Проект Гутенберга . У вас есть доступ к тысячам книг на английском языке в виде простого текста. Это то, что я использовал однажды и был счастлив этим.

1 голос
/ 31 марта 2010

Если вы не нашли его, вы можете создать его с помощью генератора LOREM IPSUM

Эквивалент T-SQL = rand ()

Вы также можете получить полный дамп данных StackOverflow

http://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...