Разреженные данные: эффективное хранение и поиск в РСУБД - PullRequest
5 голосов
/ 05 января 2009

У меня есть таблица, представляющая значения метрик исходного файла в разных версиях проекта, например:

Revision FileA FileB FileC FileD FileE ...
1           45     3    12   123   124
2           45     3    12   123   124
3           45     3    12   123   124
4           48     3    12   123   124
5           48     3    12   123   124
6           48     3    12   123   124
7           48    15    12   123   124

(Реляционное представление данных выше отличается. Каждая строка содержит следующие столбцы: Revision, FileId, Value. Файлы и их ревизии, из которых рассчитываются данные, хранятся в репозиториях Subversion, поэтому мы пытаемся представляет структуру хранилища в реляционной схеме.)

В 10000 ревизиях может быть до 23750 файлов (это относится к программе рисования ImageMagick ). Как видите, большинство значений одинаковы между последовательными ревизиями, поэтому полезные данные таблицы довольно скудны. Я ищу способ хранения данных, которые

  • избегает репликации и эффективно использует пространство (в настоящее время для разреженного представления требуется 260 ГБ (данные + индекс) для менее чем 10% данных, которые я хочу сохранить)
  • позволяет мне эффективно извлекать значения для конкретной ревизии, используя SQL-запрос (без явного зацикливания ревизий или файлов)
  • позволяет мне эффективно получить ревизию для определенного значения метрики.

В идеале решение не должно зависеть от конкретной СУБД и должно быть совместимо с Hibernate . Если это невозможно, я могу жить с использованием функций, специфичных для Hibernate, MySQL или PostgreSQL.

1 Ответ

5 голосов
/ 05 января 2009

Вот как я могу это смоделировать. Я пропустил таблицу ревизий и таблицу файлов, поскольку они должны быть достаточно понятны.

CREATE TABLE Revision_Files
(
    start_revision_number   INT NOT NULL,
    end_revision_number     INT NOT NULL,
    file_number             INT NOT NULL,
    value                   INT NOT NULL,
    CONSTRAINT PK_Revision_Files PRIMARY KEY CLUSTERED (start_revision_number, file_number),
    CONSTRAINT CHK_Revision_Files_start_before_end CHECK (start_revision_number <= end_revision_number)
)
GO

Чтобы получить все значения для файлов определенной ревизии, вы можете использовать следующий запрос. Присоединение к таблице файлов с внешним соединением позволит вам получить те, которые не имеют определенного значения для этой ревизии.

SELECT
    REV.revision_number,
    RF.file_number,
    RF.value
FROM
    Revisions REV
INNER JOIN Revision_Files RF ON
    RF.start_revision_number <= REV.revision_number AND
    RF.end_revision_number >= REV.revision_number
GO

Предполагая, что я правильно понимаю, что вы хотите в третьем пункте, это позволит вам получить все ревизии, для которых определенный файл имеет определенное значение:

SELECT
    REV.revision_number
FROM
    Revision_Files RF
INNER JOIN Revisions REV ON
    REV.revision_number BETWEEN RF.start_revision_number AND RF.end_revision_number
WHERE
    RF.file_number = @file_number AND
    RF.value = @value
GO
...