Блоки аналогичного текста для тестовых данных - PullRequest
0 голосов
/ 06 января 2009

В целях тестирования мне нужно создать наборы текстовых файлов, которые имеют похожий, но не идентичный текст. Каждый набор должен отличаться от другого, но также иметь некоторую общность.

Например, мне может понадобиться создать 10 комплектов по 20 документов в каждом на общую сумму 200 документов. Каждый документ должен содержать около 250 слов.

Если один из комплектов документов посвящен собакам, то было бы целесообразно, чтобы документы других комплектов относились, например, к животным, чтобы между каждым комплектом (в данном случае животными) и сильной связь между документами в наборе (например, собаками в одном наборе и кошками в другом наборе).

Слова в документах не обязательно должны быть в каком-то определенном порядке, и при этом они не должны быть в предложениях или иметь смысл.

Кто-нибудь знает, как я могу генерировать или получать данные такого типа для моих модульных тестов?

Ответы [ 2 ]

3 голосов
/ 06 января 2009

Как насчет получения текста из Project Gutenberg ?

0 голосов
/ 05 ноября 2015

Мне понадобился набор тестовых данных для индексации текста, чтобы оценить скорость индексации solr. Я скачал исходный код с github в виде zip-файла. например, этот огромный https://github.com/spring-projects/spring-framework

кнопка "скачать как почтовый индекс".

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...