Как бороться с несколькими дубликатами в Midia Wiki - PullRequest
0 голосов
/ 25 января 2020

Я в основном скачал из MediaWiki API много страниц, связанных с математикой. Некоторые из них просто дублированы одной и той же статьей , но с одной или несколькими буквами, отличающимися от каждого названия, например: " Adição_de_ s egmentos " и " Adição_de_ S egmentos", написано на португальском (мой родной язык)

Когда я начал анализировать статистику просмотров по определенной статье c , проходя через его различные названия , я ожидал получить следующие данные:

  1. Старые (устарели) будут хранить данные до какого-то дня X, и тогда будет нечего дальше показывать;
  2. Запатентованные заголовки будут иметь данные, начиная со дня X, а затем будут храниться до последнего дня, который я хочу проанализировать.

Но это не было того, что случилось. Есть статьи, которые по-прежнему получают просмотры, даже если они больше недоступны ни от Google (как пример поискового инструмента), ни от поиска в самой Википедии.

Итак, что делать? Данные отличаются: один заголовок имеет 3 просмотра в день Y, а другой - 1 просмотр. Должен ли я просто суммировать их, не считая, что они могут ссылаться на один и тот же доступ от одного пользователя? Или это тот случай, когда некоторые старые ссылки доступны пользователям, а Википедия просто перенаправляет пользователей на пропатченные статьи, но не пересматривает подходящее место для подсчета статистики?

Спасибо.

...