Question

Я хочу провести небольшое тестирование и тестирование производительности для полнотекстового поиска, поэтому набор данных должен иметь следующие качества:

10000 - 100000 записей.
хорошая дисперсия английских слов.
В формате CSV или Excel - т.е. Я не хочу получать к нему доступ через API.

Было бы идеально, например, книги или фильмы с полями заголовка и описания. Я просматривал репозиторий машинного обучения UCI, но он был слишком ориентирован на число.

Cheeso · Answer 1 · 31 марта 2010

Вы можете попробовать
- CKAN
- или поиск "Открытые данные"

Или см. Тим Бернерс-Ли, обсуждающий краткий обзор нескольких наборов открытых данных .

ewernli · Answer 2 · 31 марта 2010

Используйте Проект Гутенберга . У вас есть доступ к тысячам книг на английском языке в виде простого текста. Это то, что я использовал однажды и был счастлив этим.

Raj More · Answer 3 · 31 марта 2010

Если вы не нашли его, вы можете создать его с помощью генератора LOREM IPSUM

Эквивалент T-SQL = rand ()

Вы также можете получить полный дамп данных StackOverflow

http://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/

Где я могу скачать бесплатный текстовый набор данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Где я могу скачать бесплатный текстовый набор данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов