Если вы действительно хотите убедиться, что дубликатов не существует, просто сохраните URL. Единственное, что вы можете сделать с хэшем, это использовать его в качестве первого индикатора, если URL-адрес может существовать, но в основном вы выполняете индексацию вручную, в то время как хорошая БД может сделать это для вас.
Помимо того, как хранить его, существуют разные способы представления одного и того же URL-адреса в другой строке, поэтому неплохо было бы указать, насколько уникальными должны быть URL-адреса?