Как классифицировать сайты? - PullRequest
0 голосов
/ 09 октября 2018

У меня есть список URL, извлеченных из поиска Google.Я хочу разделить веб-сайты по категориям, таким как компания / бизнес, блог, новости, спорт.

Поиск и очистка поиска в Google выполняется с помощью скрипта Python.

Я не понимаю, как отделитьURL-адрес.Кто-нибудь может мне помочь с этим?

1 Ответ

0 голосов
/ 09 октября 2018

Написание собственной программы для классификации сайтов будет нелегким делом.Возможно, вам потребуется разработать систему на основе ИИ, которая будет посещать каждый сайт, чтобы собрать необходимые данные, и на основе данных и ключевых слов определить, какой это тип сайта.Это моя идея, может быть, есть лучший подход для этого.

Скорее, вы должны использовать сторонние веб-сайты.Есть много платных и бесплатных провайдеров информации о категориях сайтов.Для категоризации веб-сайтов проверьте следующие ресурсы: SimilarWeb , Webshrinker , Symantec , cyren .Надеюсь, что это поможет.

...