Я считаю, Python - лучший выбор, но я могу ошибаться.
Ниже приведен пример из источника данных в текстовом формате Linux:
TUI,39832020:09:01,10.56| TUI,39832020:10:53,11.23| TUI,39832020:15:40,23.20
DIAN,39832020:09:04,11.56| TUI,39832020:11:45,11.23| DIAN,39832020:12:30,23.20| SLD,39832020:11:45,11.22
размер неизвестен, давайте предположим миллион строк.
Каждая строка содержит три или более наборов, разделенных |
, и каждый набор имеет поля, разделенные ,
.
Первое поле в каждый набор является идентификатором продукта. Например, в приведенном выше примере TUI
, DIAN
и SLD
- это идентификаторы продуктов.
Мне нужно выяснить, сколько типов продуктов у меня в файле. Например, первая строка содержит 1: TUI
, вторая строка содержит 3: DIAN
, TUI
и SLD
.
Всего на этих двух строках мы можем видеть три уникальных продукта.
Кто-нибудь может помочь?
Большое спасибо. Любое просвещение приветствуется.
ОБНОВЛЕНИЕ
Я предпочитаю решение, основанное на Python с Spark, то есть pySpark.
Я также ищу для статистики, например:
- общая сумма каждого продукта;
- все записи за данное время (второе поле в каждом наборе, например
39832020:09:01
); - минимальная и максимальная цена для каждого продукта.
ОБНОВЛЕНИЕ 2
Спасибо всем за код, я очень ценю. Интересно, может ли кто-нибудь записать данные в RDD и / или в фрейм данных? Я знаю, что в Spark SQL эту статистику очень просто получить.
Заранее большое спасибо.
Большое спасибо.