Дифференциальный алгоритм для законодательства - PullRequest
2 голосов
/ 29 октября 2011

В рамках амбициозного проекта я пытаюсь лучше понять законодательный текст, который записан в законопроектах, представленных в Конгрессе США.У меня есть электронные версии последних счетов, и я пытаюсь реализовать алгоритм, который сравнивал бы счет с предыдущими счетами, ища сходства.Гипотеза состоит в том, что многие ошибочные счета в конечном итоге попадают в другие счета.

Очевидно, что это большая задача.Существует много вопросов, касающихся разностных двигателей, но моя проблема немного отличается.Часто представляются законопроекты, объединяющие несколько идей.Таким образом, механизм различий должен будет сравнивать порции счетов, а не все счета.

Есть ли какие-либо рекомендации по разностным алгоритмам или методам, позволяющим это сделать?У меня есть доступ к серьезным вычислительным возможностям, но имейте в виду, что я буду использовать набор данных из примерно 100 000 счетов.

Ответы [ 2 ]

1 голос
/ 29 октября 2011

Очень интересная идея.Я хотел бы начать с изучения алгоритмов самой длинной общей подпоследовательности и посмотреть, как их адаптировать к (1) сообщать последовательность любой через некоторый порог, скажем, 20 слов, и (2) посмотреть, еслиВы можете заставить их справиться с небольшим количеством нечеткости, если слово или два изменятся.Я бы посоветовал взглянуть на код diff для начала.

1 голос
/ 29 октября 2011

Взгляните на Simian - анализатор сходства .Он работает как для обычного текста, так и для кода.

...