Как была разработана функция Популярные отрывки из Google Книг? - PullRequest
1 голос
/ 20 июля 2009

Мне любопытно, если кто-нибудь понимает, знает или может указать мне исчерпывающую литературу или исходный код о том, как Google создал свою популярную функцию блоков переходов. Однако, если вам известно о любом другом приложении, которое может сделать то же самое, пожалуйста, оставьте свой ответ тоже.

Если вы не знаете, о чем я пишу , то вот ссылка на пример популярных отрывков. Когда вы смотрите на обзор книги Моделирование процесса принятия юридических решений для приложений информационных технологий ... Автор Георгиос Н. Яннопулос вы можете увидеть что-то вроде:

Популярные отрывки

... направление неопределенное. У нас есть не поселились, потому что у нас нет ожидается, что вопрос, который будет быть поднят непредвиденным случаем, когда такое случается; есть ли какая-то степень мир в парке должен быть принесен в жертву или защищаться от тех, дети, чье удовольствие или интерес это использовать эти вещи. Когда непредвиденный случай действительно возникает, мы противостоять проблемам на карту и может затем решить вопрос, выбрав между конкурирующими интересами в путь, который лучше всего удовлетворяет нас. В делает ... Страница 86

Появляется в 15 книгах за 1968-2003 гг.

Это был бы мир, пригодный для «Механическая» юриспруденция. прямо этот мир не наш мир; человек законодатели могут не иметь таких знаний из всех возможных комбинаций обстоятельства, которые могут возникнуть в будущем принести. Эта неспособность предвидеть приносит с собой родственника неопределенность цели. Когда мы смелые достаточно, чтобы сформулировать какое-то общее правило поведение (например, правило, что нет транспортного средства может быть взят в парк), язык, используемый в этом контексте, исправляет необходимые условия, которые ничего должен удовлетворять ... Страница 86

Появляется в 8 книгах за 1968-2000

более

Это должен быть интенсивный процесс сопоставления с образцом. Я могу думать только о n-граммовых моделях, текстовом корпусе, автоматическом обнаружении плагизма. Но иногда n-граммы являются вероятностными моделями для предсказания следующего элемента в последовательности, и текстовый корпус (насколько мне известно) создается вручную. И, в данном конкретном случае, в популярных отрывках может быть много слов.

Я действительно потерян. Если я хотел создать такую ​​функцию, как или с чего мне начать? Также укажите в своем ответе, какие языки программирования лучше всего подходят для этого: F # или любой другой функциональный язык, PERL, Python, Java ... (я сам становлюсь поклонником F #)

PS: может кто-нибудь включить тэг автоматического обнаружения плагиата, потому что я не могу

Ответы [ 3 ]

6 голосов
/ 17 октября 2011

Прочитайте этот документ ACM Колака и Шилита, исследователей Google, которые разработали "Популярные отрывки". Также есть несколько релевантных слайдов из этого курса MapReduce, который преподают Болдридж и Лиз в Техасском университете в Остине.

0 голосов
/ 21 июля 2009

Если вы знаете, какие книги ссылаются или ссылаются на другие книги, вам не нужно просматривать все возможные книги, только те, которые цитируют друг друга. Если научные ссылки часто содержат строки и номера страниц в цитате или их можно найти в библиографии в конце книги, то, возможно, Google анализирует только эту информацию?

Ученый Google, безусловно, обладает информацией о цитировании с бумаги на бумагу, может быть, из книги в книгу тоже.

0 голосов
/ 21 июля 2009

В небольшом примере, который я просмотрел, похоже, что все выбранные отрывки были встроенными или блочными кавычками. Просто предположение, но, возможно, Google Книги ищет кавычки / различия в форматировании и цитировании, а затем использует разобранную версию библиографии, чтобы связать цитату с источником. Ура для руководства по стилю.

Этот подход, очевидно, не помогает обнаружить плагиат и мало помогает, если корпус не в формате, который сохраняет форматирование текста.

...