Если я правильно понимаю, вы просто хотите узнать, хороший URL или плохой.
SVM не подходит, SVM подходят только в том случае, если набор данных очень сложный и многие информационные точки расположены близко к гиперплоскости. Вы бы использовали SVM для добавления дополнительных измерений к данным.
Вы бы хотели, чтобы несколько тысяч URL идеально подходили для обучения вашего набора данных. Чем больше, тем лучше, очевидно, вы могли бы сделать это всего за 100, но ваши результаты могут не дать хороших классификаций.
Я бы посоветовал вам сначала создать свой набор данных и использовать Weka http://www.cs.waikato.ac.nz/ml/weka/
Вы можете измерить, какой алгоритм дает вам лучшие результаты.