Это должно быть просто, но я не могу получить это. Мне нужно сделать выбор, чтобы получить более новые значения даты для некоторых учетных записей.
Я начинаю здесь, T1:
+----------+---------+
| date | account |
+----------+---------+
| 4/1/2018 | 1 |
| 4/1/2018 | 2 |
| 4/1/2018 | 3 |
| 4/1/2018 | 4 |
| 4/1/2018 | 5 |
+----------+---------+
Затем некоторые даты обновляются в T2:
+----------+---------+
| date | account |
+----------+---------+
| 7/1/2018 | 1 |
| 7/1/2018 | 2 |
+----------+---------+
Как я могу получить этот вывод в T3, обновляя только эти учетные записи?
+----------+---------+
| date | account |
+----------+---------+
| 7/1/2018 | 1 |
| 7/1/2018 | 2 |
| 4/1/2018 | 3 |
| 4/1/2018 | 4 |
| 4/1/2018 | 5 |
+----------+---------+
Я могу сделать соединение по номеру счета, но как насчет тех, которые не изменились? Как их запечатлеть?
Кроме того, T1 имеет около 8 миллионов записей, поэтому производительность будет иметь значение. Извлечение из Teradata, загрузка в Hive.
Спасибо!