Question

Я пытаюсь использовать некоторые очень большие файлы данных (текст) для обучения. Кажется, лучший путь для этого - разделить (или «осколить») гигантский файл на несколько более мелких, более управляемых, а затем использовать список этих файлов для загрузки данных в тензорный поток с TextLineDataset.

Если я создайте список файлов самостоятельно и передайте его, он работает как рекламируется (например, каждый открывается и читается по порядку). Однако я предпочел бы придерживаться встроенного метода tenorflow, поэтому я стараюсь использовать tf.data.TextLineDataset.list_files(globpattern) и вместо этого получить свой код, пытающийся работать с буквальными именами файлов, а не открывать файлы и читать их.

Я пытаюсь использовать пример здесь https://github.com/tensorflow/tensorflow/issues/14857 (который повторяется в нескольких местах), но пример в псевдокоде, который я все еще слишком нов, чтобы распутать.

Мои цели:

Перемешать список исходных файлов
Чтение семплов из нескольких файлов, чередование ввода
Полоскание и повтор

Кажется, это должно быть довольно простым делом, но я часами бьюсь головой о предполагаемых документах и примерах.

Использование Tensoflow TextLineDataset.list_files для чередования ввода

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Использование Tensoflow TextLineDataset.list_files для чередования ввода

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы