Как дедуплицировать файл ожидания? - PullRequest
0 голосов
/ 17 апреля 2019

Недавно я просканировал файл многих ставок (на китайском языке) и сохранил его в своей базе данных. Поскольку файлы ставок поступают с разных веб-сайтов, многие из них повторяются (например, Google хочет купить новый поисковая система, и он позволил двум прокси-сайтам опубликовать это сообщение для него. когда я сканировать эти два прокси-сайта, я получил двойное сообщение ставок). Теперь у меня нет решения этой работы, потому что некоторая информация находится в разных структурах, потому что на разных веб-сайтах прокси используется другая программа. Может кто-нибудь сказать мне решение о том, как сравнить соотношение каждого текста предложения и отбросить дублированный текст предложения? Elasticsearch полезен для меня?

...