У меня есть сотни JSON-строк.Каждое из них содержит массив из 15-20 слов, отсортированных по некоторому заданному весу.Этот вес, если его стоит отметить, - это количество раз, когда эти слова встречаются в некотором фрагменте текста.Как лучше всего найти сходство между массивами слов, которые структурированы подобным образом?
Первая идея, которая пришла мне в голову, состояла в том, чтобы создать числовой хэш всех слов вместе и в основном сравнить эти значения, чтобы определить сходство.Я не очень преуспел с этим, так как получающиеся значения хеша очень похожих строк были не очень близки.После некоторых исследований, касающихся алгоритмов сравнения строк, я пришел в Stackoverflow в надежде получить больше рекомендаций.Спасибо заранее, и, пожалуйста, дайте мне знать, если вам нужно больше подробностей о проблеме.
Редактировать 1: Уточнение того, что я пытаюсь сделать: я хочу определить, насколько похожи два массива в соответствии со словами каждогоиз них есть.Я также хотел бы принять во внимание вес каждого слова в каждом массиве.Например:
var array1 = [{"word":"hill","count":5},{"word":"head","count":5}];
var array2 = [{"word":"valley","count":7},{"word":"head","count":5}];
var array3 = [{"word":"head", "count": 6}, {"word": "valley", "count": 5}];
var array4 = [{"word": "valley", "count": 7}, {"word":"head", "count": 5}];
В этом примере массив 4 и массив 2 более похожи, чем массив 2 и массив 3, потому что, хотя оба имеют одинаковые слова, вес для них обоих одинаков.массив 4 и 2. Я надеюсь, что это немного облегчает понимание.Заранее спасибо.