Я хочу провести небольшое тестирование и тестирование производительности для полнотекстового поиска, поэтому набор данных должен иметь следующие качества:
- 10000 - 100000 записей.
- хорошая дисперсия английских слов.
- В формате CSV или Excel - т.е. Я не хочу получать к нему доступ через API.
Было бы идеально, например, книги или фильмы с полями заголовка и описания. Я просматривал репозиторий машинного обучения UCI, но он был слишком ориентирован на число.