Как удалить дубликаты строк в openrefine, сравнивая одно значение столбца? - PullRequest
0 голосов
/ 06 марта 2020

У меня есть 20000 повторяющихся строк в CSV, и я пытаюсь удалить дубликаты, используя openrefine. Моя проблема в том, что я хочу удалить дубликат, количество которого меньше. В изображении, если вы посмотрите на первые две строки, строка 136 имеет количество как 1, а строка 137 имеет количество как 3, в противном случае все параметры одинаковы, поэтому я хочу сохранить строку 137 и удалить строку 136. Как я могу добиться этого используя OpenRefine? Снимок экрана OpenRefine

1 Ответ

0 голосов
/ 07 марта 2020

В OpenRefine вы можете сортировать по нескольким столбцам одновременно. В вашем случае:

  • сначала сортируйте по invoice number
  • , затем сортируйте по Quantity и выбирайте сортировку по number, largest first и оставляйте параметр sort by this column alone снимите галочку.

При этом будет выполнена сортировка по номеру счета и количеству. Затем вы можете следовать процессу , чтобы удалить дубликаты, используя OpenRefine здесь.

enter image description here

...