У меня есть следующая стратегия создания фреймов данных с данными геномики:
from hypothesis.extra.pandas import columns, data_frames, column
import hypothesis.strategies as st
def mysort(tp):
key = [-1, tp[1], tp[2], int(1e10)]
return [x for _, x in sorted(zip(key, tp))]
positions = st.integers(min_value=0, max_value=int(1e7))
strands = st.sampled_from("+ -".split())
chromosomes = st.sampled_from(elements=["chr{}".format(str(e)) for e in list(range(1, 23)) + "X Y M".split()])
genomics_data = data_frames(columns=columns(["Chromosome", "Start", "End", "Strand"], dtype=int),
rows=st.tuples(chromosomes, positions, positions, strands).map(mysort))
Меня не очень интересуют пустые фреймы данных, поскольку они недопустимы, и я также хотел бы создать несколько действительно длинных dfs.Как изменить размеры фреймов данных, созданных для тестовых случаев?Т.е. минимальный размер 1, средний размер большой?