Я только что закончил передавать как можно больше данных о структуре ссылок, касающихся Википедии (англ.). По сути, я скачал кучу дампов SQL из последнего хранилища дампов Википедии . Поскольку я использую PostgreSQL вместо MySQL, я решил загрузить все эти дампы в свою базу данных, используя команды конвейерной оболочки .
В любом случае, в одной из этих таблиц 295 миллионов строк: таблица pagelinks ; он содержит все внутри-вики гиперссылки. С моего ноутбука, используя pgAdmin III, я отправил следующую команду на сервер базы данных (другой компьютер):
SELECT pl_namespace, COUNT(*) FROM pagelinks GROUP BY (pl_namespace);
Это было в течение часа или около того. Дело в том, что почтмейстер, кажется, поглощает все больше и больше моего очень ограниченного пространства HD. Я думаю, что он съел около 20 ГБ на данный момент. Ранее я играл с файлом postgresql.conf, чтобы повысить гибкость его работы (т. Е. Позволить использовать больше ресурсов), поскольку он работает с 12 ГБ ОЗУ. Я думаю, что я в основном увеличил в четыре раза больше байтов и связанных с этим переменных этого файла, думая, что он будет использовать больше оперативной памяти для своей работы.
Однако БД, похоже, не использует много ОЗУ. Используя системный монитор Linux, я вижу, что почтмейстер использует 1,6 ГБ разделяемой памяти (RAM). В любом случае, мне было интересно, если вы, ребята, могли бы помочь мне лучше понять, что он делает, мне кажется, что я действительно не понимаю , как PostgreSQL использует HD-ресурсы .
Что касается метаструктуры баз данных Википедии, они предоставляют хорошую схему , которая может быть полезной или даже интересной для вас.
Не стесняйтесь спрашивать меня о более подробной информации, спасибо.