php сделать уникальный хэш описания rss - PullRequest
2 голосов
/ 15 августа 2010

Я использую php для создания агрегатора сортировки RSS, который хранит данные из нескольких RSS-каналов сайта в базу данных MySQL.поскольку статьи могут дублироваться на многих сайтах, я хочу этого избежать.Мне сказали, что вы можете использовать хеширование для создания уникальных хешей на основе содержимого rss [описание + заголовок].Теперь какой алгоритм хеширования самый быстрый и выдает меньше символов, которые я могу использовать для сравнения, чтобы избежать дублирования.

Заранее спасибо

Ответы [ 3 ]

2 голосов
/ 15 августа 2010

sprintf ('% u', crc32 ()) создает 4 294 967 296 комбинаций и короче, чем md5 или sha1. ширина всего 32 бита.

1 голос
/ 15 августа 2010

MD5 является самым быстрым и выдает хеш длиной 32 символа.

<?php
$hash = md5($description . $title);
?>

Я использовал его в своем парсере RSS точно для той же цели.И это работает как шарм.

1 голос
/ 15 августа 2010

Чтобы избежать ложных дубликатов, вы должны использовать криптографически безопасный алгоритм хеширования, такой как SHA-1 или MD5.

...