Я пытаюсь использовать некоторые очень большие файлы данных (текст) для обучения. Кажется, лучший путь для этого - разделить (или «осколить») гигантский файл на несколько более мелких, более управляемых, а затем использовать список этих файлов для загрузки данных в тензорный поток с TextLineDataset.
Если я создайте список файлов самостоятельно и передайте его, он работает как рекламируется (например, каждый открывается и читается по порядку). Однако я предпочел бы придерживаться встроенного метода tenorflow, поэтому я стараюсь использовать tf.data.TextLineDataset.list_files(globpattern)
и вместо этого получить свой код, пытающийся работать с буквальными именами файлов, а не открывать файлы и читать их.
Я пытаюсь использовать пример здесь https://github.com/tensorflow/tensorflow/issues/14857 (который повторяется в нескольких местах), но пример в псевдокоде, который я все еще слишком нов, чтобы распутать.
Мои цели:
- Перемешать список исходных файлов
- Чтение семплов из нескольких файлов, чередование ввода
- Полоскание и повтор
Кажется, это должно быть довольно простым делом, но я часами бьюсь головой о предполагаемых документах и примерах.