Мне нужно извлечь сайты из текстовых ответов. Алгоритм должен широко соответствовать. Например, «пациенты, подобные мне» или «пациенты, похожие на меня», должны распознаваться как «пациенты, похожие на меня.»
Я включил ответы из набора данных ниже. Я начал писать некоторые сценарии для этого, но понял, что не использую надежный шаблон проектирования, который будет принимать дополнительные фильтры и словари. Простое регулярное выражение не работало, потому что совпадение было либо слишком точным, либо слишком общим, чтобы поймать достаточное количество совпадений. В идеальном мире я также мог бы использовать что-то вроде aspell для исправления орфографических ошибок или использовать алгоритм levenstein для сопоставления слов.
Заранее благодарим за то, что вы указали мне направление на любые алгоритмы, структуры или ресурсы для очистки данных.
Вся красота "онлайн
сообщества "является то, что они
большая степень, аноним. Тем не мение:
Доступный садоводческий форум,
Davesgarden.com; Patientslikeme.com;
и, конечно, FACEBOOK.
$sites = array("davesgarden.com","patientslikeme.com","facebook.com");
Пациент как я Ms Society Facebook
Thisisms
$sites = array("patientslikeme.com","mssociety.org","facebook.com","thisisms.com");
yaoo webmd.co
$sites = array("yahoo.com","webmd.com");
MS лечения options.com
$sites = array("mstreatmentoptions.com");