Здесь есть несколько вопросов. Во-первых, RT не всегда идентичны. Некоторые люди добавляют комментарий. Другие меняют URL для отслеживания. Другие добавляют в лицо, что они RT'ing (который может или не может быть автором).
Так что, если вы собираетесь хешировать твит, вам нужно сварить его до мяса твита, и только хэшировать это. Удачи.
Выше кто-то упомянул, что с 32-битными вы начнете сталкиваться с твитами около 65K. Конечно, вы можете столкнуться с твитом № 2. Но я думаю, что автор этого комментария был сбит с толку, так как 2 ^ 16 = ~ 65K, но 2 ^ 32 = ~ 4 трлн. Так что у вас там немного больше места.
Лучшим алгоритмом может быть попытка получить «уникальные» части твита и отследить его. Это не хеш, это отпечаток нескольких ключевых слов, которые определяют уникальность.