Как Википедия избегает повторяющихся записей? - PullRequest
1 голос
/ 01 ноября 2009

Как веб-сайты размером Википедия могут сортировать повторяющиеся записи?

Мне нужно знать точную процедуру с того момента, как пользователь создает дублирующую запись, и так далее. Если вы не знаете, но знаете способ, отправьте его.

---- ---- обновление

Предположим, что есть wikipedia.com/horse, а потом кто-то создает wikipedia.com/the_horse, это дублирующая запись! Он должен быть удален или может быть перенаправлен на исходную страницу.

Ответы [ 4 ]

8 голосов
/ 02 ноября 2009

Это ручной процесс

По сути, такие сайты, как Википедия, а также stackoverflow полагаются на своих пользователей / редакторов, чтобы они не создавали дубликаты и не объединяли и не удаляли их, когда они были созданы случайно. Существуют различные функции, которые делают этот процесс более простым и надежным:

  • Установите хорошие соглашения об именах («лошадь» не является общепринятым именем, естественно, следует выбрать «лошадь»), чтобы редакторы, естественно, давали одно и то же имя одной и той же теме.
  • Упростите для редакторов поиск похожих статей.
  • Упростите пометить статьи как дубликаты или удалить их.
  • Установите разумные ограничения, чтобы вандалы не могли неправильно использовать эти функции для удаления подлинного контента с вашего сайта.

Сказав это, вы все равно найдете много дублирующейся информации в Википедии - но редакторы убирают это так же быстро, как и добавляют.

Это все о сообществе (обновление)

Сообщество сайтов (таких как Википедия или StackOverflow) со временем разрабатывают свои процедуры с течением времени. Взгляните на Википедию: около Stackoverflow: FAQ или meta.stackoverflow . Вы можете потратить недели, читая обо всех небольших (но важных) деталях того, как сообщество совместно создает сайт вместе и как они решают возникающие проблемы. Многое из этого относится к правилам для ваших участников, но по мере того, как вы будете разрабатывать свои правила, многие их детали будут включены в код вашего сайта.

Как правило, я настоятельно рекомендую создать сайт с простой системой и небольшим сообществом авторов, которые согласны с общей целью и заинтересованы в чтении Контент вашего сайта, как и внести свой вклад, готовы пойти на компромисс и исправить проблемы вручную. На этом этапе гораздо важнее иметь «идентичность» вашего сообщества и взаимопомощь, чем иметь много посетителей или участников. Вам придется тратить много времени и усилий, чтобы справляться с проблемами по мере их возникновения и делегировать ответственность своим членам. Как только у сайта есть основа и общее соглашение, вы можете постепенно расширять свое сообщество. Если вы все сделаете правильно, вы получите достаточно сторонников , чтобы разделить дополнительную работу с новыми членами. Если вам все равно, спамеры или тролли захватят ваш сайт.

Обратите внимание, что в течение многих лет Википедия медленно увеличивалась до своего нынешнего размера. Секрет не в том, чтобы стать большим, а в том, чтобы расти здоровым.

Сказав это, stackoverflow, похоже, растет быстрее, чем википедия. Возможно, вы захотите рассмотреть различные компромиссные решения, которые были приняты здесь: stackoverflow гораздо более ограничен, поскольку позволяет одному пользователю изменять вклад другого пользователя. Плохая информация часто просто опускается вниз страницы (низкий рейтинг). Следовательно, он не будет производить такие статьи, как Википедия. Но проще не допускать проблем.

3 голосов
/ 02 ноября 2009

Я могу добавить один в список Яакова: * Википедия следит за тем, чтобы после объединения информации «Лошадь» указывала на «Лошадь», поэтому один и тот же неправильный заголовок нельзя использовать во второй раз.

2 голосов
/ 19 декабря 2009

EBAGHAKI, отвечая на ваш последний вопрос в комментариях выше:

Если вы пытаетесь спроектировать свою собственную систему с этими функциями, ключевой из них будет:

  • Сделать само пространство имен редактируемым сообществом, которое идентифицирует дубликаты.

В случае MediaWiki это делается с помощью специальной команды "#REDIRECT" - статья, созданная только с "#REDIRECT [[название новой статьи]]" в первой строке, обрабатывается как перенаправление URL.

Остальная часть редакционной системы, используемой в MediaWiki, удручающе проста - каждая страница по существу рассматривается как блок текста, без структуры и с историей ревизий в единственном потоке, к которой любой читатель может добавить новую ревизию. Ничего автоматического в этом нет.

Когда вы пытаетесь создать главную страницу, вам показывается длинное сообщение, побуждающее вас искать заголовок страницы различными способами, чтобы увидеть, существует ли уже существующая страница - многие сайты имеют похожие процессы. Digg является типичным примером агрессивного автоматизированного поиска, который пытается убедить вас не публиковать дубликаты - вы должны щелкнуть по экрану с перечнем потенциальных дубликатов и подтвердить, что у вас все по-другому, прежде чем вы сможете публиковать сообщения. *

0 голосов
/ 02 ноября 2009

Я предполагаю, что у них есть процедура, которая удаляет посторонние слова, такие как 'the', для создания канонического заголовка, и если она соответствует существующей странице, не разрешать запись.

...