Я новичок в Dataflow, так что простите меня, если мой вопрос смешной, у меня есть csv-файл, который я читаю, и в нем есть повторяющиеся строки, я читаю эти данные и пишу в большой запрос, однако я не хочу писать дубликаты данные к моей таблице BQ.
Я думал об одном подходе, но я не знаю, как его реализовать, он включает в себя добавление какого-либо флага в схему, чтобы пометить его как уникальный, но я не знаю, как
Lists.newArrayList(
new TableFieldSchema()
.setName("person_id")
.setMode("NULLABLE").setType("STRING"),
new TableFieldSchema()
.setName("person_name")
.setMode("NULLABLE")
.setType("STRING") // Cant I add another unique property here?
)
Не знаю, сработает ли этот метод, но все, что мне нужно, это отфильтровать строки, извлеченные из преобразования, например
PCollection<TableRow> peopleRows =
pipeline
.apply(
"Convert to BiqQuery Table Row",
ParDo.of(new FormatForBigquery())
// Next step to filter duplicates