несколько открытый вопрос здесь, так как я в основном ищу мнения.Я собираю некоторые данные из craigslist для подходящей рекламы в моем регионе, так как я собираюсь переехать.Моя цель - иметь возможность сравнивать элементы, чтобы увидеть, когда что-то дублируется, чтобы я не тратил весь день на просмотр одних и тех же 3 объявлений.Проблема в том, что они немного меняют ситуацию, чтобы обойти фильтры CL.
У меня уже есть некоторое регулярное выражение для поиска адресов и телефонных номеров для сравнения, но это не самое надежное.Кто-нибудь знаком с простым методом сравнения всего документа и, возможно, показать что-то простое, например, «80% похоже»?Я ничего не могу придумать, поэтому я подозреваю, что мне придется начинать с нуля, чтобы найти собственное решение, но решил, что стоит спросить коллективного гения stackoverflow:)
Предпочитаемые языки / методыбыть python / php / perl, но если это отличное решение, я довольно открыт.
Обновление: одна вещь, на которую стоит обратить внимание, это то, что, поскольку я буду хранить очищенные данные RSS-канала для apts в моей области(Лос-Анджелес) в локальной БД, предпочтительный метод будет включать в себя способ сравнить его со всем, что я в настоящее время знаю.Это может показаться чем-то вроде демонстрации, так как это может стать очень долгим процессом по мере увеличения количества сообщений.