Агрегация Elasticsearch с расстоянием Хэмминга phash - PullRequest
0 голосов
/ 23 ноября 2018

Попытка сгруппировать сходные документы с соответствующими значениями полей ключевых слов и фашами связанных изображений.На данный момент у меня есть следующее, которое хорошо работает для точных совпадений phashes

          'duplicate_docs':
        A('terms',
          script={
              "lang":
              "painless",
              "inline":
              "def term = doc['make'] + '' +doc['model'] + doc['province'] + doc['mileage'];return term+''+doc['image_hash'];"
          }),
    }, {'dup_docs': A('top_hits', size=20)}):

Однако некоторые изображения немного отличаются, и весь смысл phash в том, что вы можете использовать расстояние Хэмминга, чтобы выяснить, насколько разные

Я понимаю, что это, вероятно, делает вычисление значительно более дорогим, поскольку по сути нужно сравнивать каждое изображение с любым другим изображением, которое кажется чрезмерным, но неуверенным, как еще я мог бы сделать это.Спасибо

...