В рамках амбициозного проекта я пытаюсь лучше понять законодательный текст, который записан в законопроектах, представленных в Конгрессе США.У меня есть электронные версии последних счетов, и я пытаюсь реализовать алгоритм, который сравнивал бы счет с предыдущими счетами, ища сходства.Гипотеза состоит в том, что многие ошибочные счета в конечном итоге попадают в другие счета.
Очевидно, что это большая задача.Существует много вопросов, касающихся разностных двигателей, но моя проблема немного отличается.Часто представляются законопроекты, объединяющие несколько идей.Таким образом, механизм различий должен будет сравнивать порции счетов, а не все счета.
Есть ли какие-либо рекомендации по разностным алгоритмам или методам, позволяющим это сделать?У меня есть доступ к серьезным вычислительным возможностям, но имейте в виду, что я буду использовать набор данных из примерно 100 000 счетов.