Это еще не проблема программирования!
Но я смотрю, как бы вы сравнили веб-страницы, чтобы увидеть, являются ли страницы одинаковыми / похожими. Это личный проект, а не для работы / школы ... (просто говори!)
Я нашел несколько базовых реализаций simhash, и мне было интересно, кто-нибудь может указать мне на действительно хорошую надежную реализацию py / php simhash. Я бы не стал изобретать колесо на этом.
Кроме того, я заинтересован в том, чтобы потенциально иметь возможность вычислять / генерировать структуру DOM для данной страницы, а затем вычислять узлы "конец / край" дерева / структуры, чтобы определить, может ли это быть подходом к определению Сходство страниц.
Итак, меня также интересует любой инструмент / приложение, которое можно использовать для генерации списка структуры DOM для данной страницы. Я бы подумал, что сетевой поиск привел бы к созданию нескольких py / php / apps для генерации такого рода графиков / списков для целей тестирования.
Я также могу понять, что, возможно, просто использовал неправильные термины в моем поиске.