В целях тестирования мне нужно создать наборы текстовых файлов, которые имеют похожий, но не идентичный текст. Каждый набор должен отличаться от другого, но также иметь некоторую общность.
Например, мне может понадобиться создать 10 комплектов по 20 документов в каждом на общую сумму 200 документов. Каждый документ должен содержать около 250 слов.
Если один из комплектов документов посвящен собакам, то было бы целесообразно, чтобы документы других комплектов относились, например, к животным, чтобы между каждым комплектом (в данном случае животными) и сильной связь между документами в наборе (например, собаками в одном наборе и кошками в другом наборе).
Слова в документах не обязательно должны быть в каком-то определенном порядке, и при этом они не должны быть в предложениях или иметь смысл.
Кто-нибудь знает, как я могу генерировать или получать данные такого типа для моих модульных тестов?