Как сравнить каждый элемент в Пентахо - PullRequest
0 голосов
/ 20 февраля 2020

У меня есть Excel, и есть пример того, как это выглядит введите описание изображения здесь

Я использую Pentaho с целью создания новой строки (связанной с) в который я покажу, если у человека есть отношения с другим, я буду считать, что два человека связаны, если у них одинаковый Dirección (адрес). Например, Мария Изабель Хевилла Кастро и Мигель Мансерас Фернандес живут в одном месте, тогда по отношению к Марии Изабель Хевилла Кастро это будет Мигель Мансерас Фернандес, и наоборот, в Мигеле Мансерас Фернандес это будет Мария ИзабельХевилья Кастро. *

Я пытался решить эту проблему, используя Javascript модифицированное значение, но я только начинаю изучать Javascript и не знаю, как решить эту проблему. Может ли кто-нибудь помочь мне или дать мне подсказку.

Ответы [ 2 ]

0 голосов
/ 21 февраля 2020

Если ваши адреса чистые, вы можете сделать это с помощью самостоятельного соединения в Dirección.

Идея состоит в том, что вы сортируете по Dirección, затем дублируете поток, переименовываете поле имени в другое (Nombre2 или Related_to) и присоединиться к ним от Dirección. Это приведет к записи для каждой комбинации, которая имеет то же Dirección, включая самого человека. Это исправлено путем фильтрации строк, оставляя только те, у которых Nombre не равен Nombre2.

transformation example

Базовый поток c может быть расширен с очисткой адресных полей (шаг калькулятора может делать оценки сходства) заранее или дополнительной обработкой впоследствии для поле related_to.

0 голосов
/ 21 февраля 2020

Это, вероятно, лучше всего сделать, используя al oop в чем-то вроде Python, R или Javascript, как вы уже упоминали.

Pentaho в основном разработан для обработки данных построчно. ряд строк В Пентахо не так много функций, позволяющих выполнять анализ по столбцу данных.

Если вам нужно использовать Pentaho для этого, а не что-то вроде Python или Javascript, тогда я ' d предлагает выполнить сортировку по столбцу Direccion, а затем использовать шаг Analytic query для анализа строк. Это, вероятно, будет работать, только если у вас не более двух человек на адрес, но это может привести вас туда, куда вам нужно go.

...