Мне любопытно, если кто-нибудь понимает, знает или может указать мне исчерпывающую литературу или исходный код о том, как Google создал свою популярную функцию блоков переходов. Однако, если вам известно о любом другом приложении, которое может сделать то же самое, пожалуйста, оставьте свой ответ тоже.
Если вы не знаете, о чем я пишу , то вот ссылка на пример популярных отрывков. Когда вы смотрите на обзор книги Моделирование процесса принятия юридических решений для приложений информационных технологий ... Автор Георгиос Н. Яннопулос вы можете увидеть что-то вроде:
Популярные отрывки
... направление неопределенное. У нас есть
не поселились, потому что у нас нет
ожидается, что вопрос, который будет
быть поднят непредвиденным случаем, когда
такое случается; есть ли какая-то степень
мир в парке должен быть принесен в жертву
или защищаться от тех,
дети, чье удовольствие или интерес
это использовать эти вещи. Когда
непредвиденный случай действительно возникает, мы
противостоять проблемам на карту и может
затем решить вопрос, выбрав
между конкурирующими интересами в
путь, который лучше всего удовлетворяет нас. В
делает ... Страница 86
Появляется в 15 книгах за 1968-2003 гг.
Это был бы мир, пригодный для
«Механическая» юриспруденция. прямо
этот мир не наш мир; человек
законодатели могут не иметь таких знаний
из всех возможных комбинаций
обстоятельства, которые могут возникнуть в будущем
принести. Эта неспособность предвидеть
приносит с собой родственника
неопределенность цели. Когда мы смелые
достаточно, чтобы сформулировать какое-то общее правило
поведение (например, правило, что нет транспортного средства
может быть взят в парк),
язык, используемый в этом контексте, исправляет
необходимые условия, которые ничего
должен удовлетворять ... Страница 86
Появляется в 8 книгах за 1968-2000
более
Это должен быть интенсивный процесс сопоставления с образцом. Я могу думать только о n-граммовых моделях, текстовом корпусе, автоматическом обнаружении плагизма. Но иногда n-граммы являются вероятностными моделями для предсказания следующего элемента в последовательности, и текстовый корпус (насколько мне известно) создается вручную. И, в данном конкретном случае, в популярных отрывках может быть много слов.
Я действительно потерян. Если я хотел создать такую функцию, как или с чего мне начать? Также укажите в своем ответе, какие языки программирования лучше всего подходят для этого: F # или любой другой функциональный язык, PERL, Python, Java ... (я сам становлюсь поклонником F #)
PS: может кто-нибудь включить тэг автоматического обнаружения плагиата, потому что я не могу