Все,
Письмо, чтобы увидеть, есть ли у кого-нибудь какие-либо сведения о том, что, по его мнению, является лучшей технологией для следующего сценария.Будь то python, solr, redis, memcache и т. Д.
Ситуация следующая.
У меня есть 100 миллионов + двоичных строк длиной около 1100 символов ... '0010100010101001010101011 .... '
Какой, по вашему мнению, самый логичный способ сделать следующее?
Для данной строки с таким же количеством символов, какой будет наиболее эффективный способ найтиближайший матч?Под самым близким я подразумеваю разделение наибольшего числа 0 и 1 в данной позиции.Дистанция Хэмминга, я думаю.
Мой вариант использования на самом деле подразумевал бы взятие примерно 100 тыс. Строк и поиск наилучшего совпадения в пуле из 100 млн. + Строк.
Есть мысли?Не нужно использовать какую-то конкретную технологию, просто желательно что-то довольно распространенное.
Любопытно посмотреть, какие идеи могут быть у каждого.
Спасибо, Тбон