Я в основном скачал из MediaWiki API много страниц, связанных с математикой. Некоторые из них просто дублированы одной и той же статьей , но с одной или несколькими буквами, отличающимися от каждого названия, например: " Adição_de_ s egmentos " и " Adição_de_ S egmentos", написано на португальском (мой родной язык)
Когда я начал анализировать статистику просмотров по определенной статье c , проходя через его различные названия , я ожидал получить следующие данные:
- Старые (устарели) будут хранить данные до какого-то дня X, и тогда будет нечего дальше показывать;
- Запатентованные заголовки будут иметь данные, начиная со дня X, а затем будут храниться до последнего дня, который я хочу проанализировать.
Но это не было того, что случилось. Есть статьи, которые по-прежнему получают просмотры, даже если они больше недоступны ни от Google (как пример поискового инструмента), ни от поиска в самой Википедии.
Итак, что делать? Данные отличаются: один заголовок имеет 3 просмотра в день Y, а другой - 1 просмотр. Должен ли я просто суммировать их, не считая, что они могут ссылаться на один и тот же доступ от одного пользователя? Или это тот случай, когда некоторые старые ссылки доступны пользователям, а Википедия просто перенаправляет пользователей на пропатченные статьи, но не пересматривает подходящее место для подсчета статистики?
Спасибо.