Как ограничить дублирование, как URL-адреса от сканирования - PullRequest
0 голосов
/ 03 декабря 2018

Работа на ливневом гусеничном ходу 1.10 и ES 6.4.2.После завершения процесса сканирования, когда я проверяю записи, сканер захватывает URL-адреса https и http с тем же заголовком и описанием, как я могу указать сканеру захватывать только один из URL-адресов.

Title: About Apache storm
Description:A Storm application is designed as a "topology" in the shape of a directed acyclic graph (DAG) with spouts and bolts acting as the graph vertices. Edges on the graph are named streams and direct data from one node to another. Together, the topology acts as a data transformation pipeline. At a superficial level the general topology structure is similar to a MapReduce job, with the main difference being that data is processed in real time as opposed to in individual batches. Additionally, Storm topologies run indefinitely until killed, while a MapReduce job DAG must eventually end.
url: https://www.someurl.com


Title: About Apache storm
Description:A Storm application is designed as a "topology" in the shape of a directed acyclic graph (DAG) with spouts and bolts acting as the graph vertices. Edges on the graph are named streams and direct data from one node to another. Together, the topology acts as a data transformation pipeline. At a superficial level the general topology structure is similar to a MapReduce job, with the main difference being that data is processed in real time as opposed to in individual batches. Additionally, Storm topologies run indefinitely until killed, while a MapReduce job DAG must eventually end.
url: http://www.someurl.com

1 Ответ

0 голосов
/ 05 декабря 2018

Эти варианты часто управляются сайтом как перенаправление, поэтому вы получите только один документ.В качестве альтернативы, сайты могут предоставить канонический тег , который StormCrawler использует в качестве значения URL, если он присутствует.

StormCrawler просматривает документы один за другим и не знает других URL-адресов.Вы можете реализовать это вне SC следующим образом:

  1. свертывание результатов при запросе индекса
  2. дедупликация содержимого индекса, например, с помощью MapReduce

Одним из вариантов в SC для обработки любых оставшихся дубликатов будет создание пользовательских метаданных, например хеша содержимого, и изменение болта индексатора ES, чтобы он использовал это значение, если оно присутствует вместо нормализованного URL дляидентификатор документа.Затем вы получите один документ, но не сможете выбрать, какой из URL использовать (http или https).

...