Привет,
У меня есть следующая задача:
1) У меня есть список из 700 000 железнодорожных / автобусных станций с именем
2) У меня есть список B из 300 000 железнодорожных / автобусных станций с названием (немного другое написано, конечно)
3), скажем, 150 000 элементов B, я знаю точное совпадение в A.
4) я хочу сопоставьте вторую половину элементов в B с A (допустим, мы знаем, что есть совпадение).
Я знаю, что здесь много подобных вопросов относительно нечеткого соответствия текста / строк, но что я неудовлетворительным является тот факт, что все они в большей или меньшей степени зависят от таких алгоритмов, как расстояние Левенштейна, и Левенштейн является своего рода проблематичным c, если в ваших текстах есть некоторые сокращения. Например, "Gleis" = "Gl." (немецкий для платформы) или "strasse" = "str." (немецкий для улицы) не должен увеличивать разницу очков. То же самое для сокращенных названий городов и и и и.
Этих сокращений больше, чем я могу обработать вручную, поэтому я подумал, что мог бы использовать тот факт, что у меня есть данные обучения в 3)
Кто-нибудь есть идеи / мысли / проекты / замечания по использованию ИИ / машинного обучения для такого рода задач? Тренировочных данных должно быть достаточно, чтобы алгоритм выучил большинство распространенных сокращений.
Кроме того, я видел некоторые AI-подходы к этому, но они используют только AI, чтобы найти подходящую границу используемой функции расстояния. различать guish между соответствием и несоответствием, что не помогает с сокращениями.
Спасибо, Тим