Недавно я просканировал файл многих ставок (на китайском языке) и сохранил его в своей базе данных. Поскольку файлы ставок поступают с разных веб-сайтов, многие из них повторяются (например, Google хочет купить новый
поисковая система, и он позволил двум прокси-сайтам опубликовать это сообщение для него. когда я
сканировать эти два прокси-сайта, я получил двойное сообщение ставок). Теперь у меня нет решения этой работы, потому что некоторая информация находится в разных структурах, потому что на разных веб-сайтах прокси используется другая программа. Может кто-нибудь сказать мне решение о том, как сравнить соотношение каждого текста предложения и отбросить дублированный текст предложения? Elasticsearch полезен для меня?