Как бороться с редиректами в дампе Википедии? - PullRequest
0 голосов
/ 15 сентября 2018

Я успешно импортировал страницу enwiki-latest-pages-Articles-multistream.XML в MySQL, используя это руководство .

Когда я ищу текст для страницы (описан процесс здесь ), часто это будет #REDIRECT [[some_page_name]].Единственный известный мне способ следовать этому перенаправлению - это поиск по всем заголовкам страниц для some_page_name.Мало того, что это занимает много времени, но иногда есть несколько статей под точным с тем же названием заголовка!

Я подумываю просто удалить все страницы перенаправления из базы данных.

Но прежде чем я это сделаю, есть ли лучший способ справиться с этими перенаправлениями?

1 Ответ

0 голосов
/ 26 сентября 2018

Как я понимаю, вы хотите определить, какова цель перенаправления. Правильно?. Если да, то вы можете получить его с помощью этого запроса:

select rd_title from redirect
inner join page
on page_id = rd_from
where page_title like "some_page_name"

rd_title - это целевая страница перенаправления.

Пожалуйста, поправьте меня, если я ошибаюсь.

...