Выборка данных, представленная несколькими строками в наборе данных - PullRequest
0 голосов
/ 13 марта 2020

У меня есть набор данных, состоящий из около 16000 файлов исходного кода. Теперь каждый файл исходного кода представлен 500 строками в CSV-файле. Каждый исходный код представлен в отдельном CSV-файле, поэтому мой первый вопрос будет состоять в том, должны ли все мои исходные коды быть представлены в одном CSV-файле. Мой второй вопрос: есть ли способ создать набор данных (структуру объекта в памяти), который распознает 500 строк в CSV как один образец? Дополнительная информация есть три столбца в CSV. До сих пор я пробовал один пример данных исходного кода, представленный в одном файле CSV, и загружал его примерно так:

df = pd.read_csv(path_to_file)
dataset = tf.data.Dataset.from_tensor_slices(df.to_dict('list')).batch(500)

Важно отметить, что все три моих столбца являются целочисленными массивами, предварительно обработанными так:

df['Source node'] = df.iloc[:, [0, 1]].values.tolist()
df['Path'] = df.iloc[:, [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28]].values.tolist()
df['Target node'] = df.iloc[:, [29, 30]].values.tolist()
# then I drop redundant columns
...