Question

В целях тестирования мне нужно создать наборы текстовых файлов, которые имеют похожий, но не идентичный текст. Каждый набор должен отличаться от другого, но также иметь некоторую общность.

Например, мне может понадобиться создать 10 комплектов по 20 документов в каждом на общую сумму 200 документов. Каждый документ должен содержать около 250 слов.

Если один из комплектов документов посвящен собакам, то было бы целесообразно, чтобы документы других комплектов относились, например, к животным, чтобы между каждым комплектом (в данном случае животными) и сильной связь между документами в наборе (например, собаками в одном наборе и кошками в другом наборе).

Слова в документах не обязательно должны быть в каком-то определенном порядке, и при этом они не должны быть в предложениях или иметь смысл.

Кто-нибудь знает, как я могу генерировать или получать данные такого типа для моих модульных тестов?

susmit shukla · Answer 1 · 05 ноября 2015

Мне понадобился набор тестовых данных для индексации текста, чтобы оценить скорость индексации solr. Я скачал исходный код с github в виде zip-файла. например, этот огромный https://github.com/spring-projects/spring-framework

кнопка "скачать как почтовый индекс".

Блоки аналогичного текста для тестовых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Блоки аналогичного текста для тестовых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов