Использование Tensoflow TextLineDataset.list_files для чередования ввода - PullRequest
0 голосов
/ 25 февраля 2020

Я пытаюсь использовать некоторые очень большие файлы данных (текст) для обучения. Кажется, лучший путь для этого - разделить (или «осколить») гигантский файл на несколько более мелких, более управляемых, а затем использовать список этих файлов для загрузки данных в тензорный поток с TextLineDataset.

Если я создайте список файлов самостоятельно и передайте его, он работает как рекламируется (например, каждый открывается и читается по порядку). Однако я предпочел бы придерживаться встроенного метода tenorflow, поэтому я стараюсь использовать tf.data.TextLineDataset.list_files(globpattern) и вместо этого получить свой код, пытающийся работать с буквальными именами файлов, а не открывать файлы и читать их.

Я пытаюсь использовать пример здесь https://github.com/tensorflow/tensorflow/issues/14857 (который повторяется в нескольких местах), но пример в псевдокоде, который я все еще слишком нов, чтобы распутать.

Мои цели:

  1. Перемешать список исходных файлов
  2. Чтение семплов из нескольких файлов, чередование ввода
  3. Полоскание и повтор

Кажется, это должно быть довольно простым делом, но я часами бьюсь головой о предполагаемых документах и ​​примерах.

...