Apache Beam TextIO можно использовать для чтения файлов JSON в некоторых файловых системах, но как я могу создать PCollection из большого JSON (InputStream), полученного в результате ответа HTTP в Java SDK?
Не думаю, что в Beam сейчас есть универсальное встроенное решение для этого, см. Список поддерживаемых операций ввода-вывода .
Я могу придумать несколько подходов к этому, в зависимости от того, что работает для вас, может зависеть от ваших требований:
ParDo