GPflow 2.0 добавляет джиттер по умолчанию в метод предиката? - PullRequest
0 голосов
/ 14 января 2020

В GPflow2.0 я пытаюсь оптимизировать составное ядро ​​(1 2D-ядро RBF + 2 1D-ядра Matern32) с помощью специального класса GPR, который принимает векторизованные неопределенности:

Data = Tuple[tf.Tensor, tf.Tensor]
likelihood = df_place.rsl_er_max.ravel()**2 # data likelihood defined as a vector of distinct values

class GPR_diag(gpf.models.GPModel):
    r"""
    Gaussian Process Regression.
    This is a vanilla implementation of GP regression with a pointwise Gaussian
    likelihood.  Multiple columns of Y are treated independently.
    The log likelihood of this models is sometimes referred to as the 'marginal log likelihood',
    and is given by
    .. math::
       \log p(\mathbf y \,|\, \mathbf f) =
            \mathcal N\left(\mathbf y\,|\, 0, \mathbf K + \sigma_n \mathbf I\right)
    """

    def __init__(self, data: Data, kernel: Kernel, mean_function: Optional[MeanFunction]=None, likelihood = likelihood):
        likelihood = gpf.likelihoods.Gaussian(variance=likelihood)
        _, y_data = data
        super().__init__(kernel, likelihood, mean_function, num_latent=y_data.shape[-1])
        self.data = data

    def log_likelihood(self):
        """
        Computes the log likelihood.
        """
        x, y = self.data
        K = self.kernel(x)
        num_data = x.shape[0]
        k_diag = tf.linalg.diag_part(K)
        s_diag = tf.convert_to_tensor(self.likelihood.variance)
        ks = tf.linalg.set_diag(K, k_diag + s_diag)
        L = tf.linalg.cholesky(ks)
        m = self.mean_function(x)

        # [R,] log-likelihoods for each independent dimension of Y
        log_prob = multivariate_normal(y, m, L)
        return tf.reduce_sum(log_prob)

    def predict_f(self, predict_at: tf.Tensor, full_cov: bool = False, full_output_cov: bool = False):
        r"""
        This method computes predictions at X \in R^{N \x D} input points
        .. math::
            p(F* | Y)
        where F* are points on the GP at new data points, Y are noisy observations at training data points.
        """
        x_data, y_data = self.data
        err = y_data - self.mean_function(x_data)

        kmm = self.kernel(x_data)
        knn = self.kernel(predict_at, full=full_cov)
        kmn = self.kernel(x_data, predict_at)

        num_data = x_data.shape[0]
        s = tf.linalg.diag(tf.convert_to_tensor(self.likelihood.variance)) #changed from normal GPR

        conditional = gpf.conditionals.base_conditional
        f_mean_zero, f_var = conditional(kmn, kmm + s, knn, err, full_cov=full_cov,
                                         white=False)  # [N, P], [N, P] or [P, N, N]
        f_mean = f_mean_zero + self.mean_function(predict_at)
        return f_mean, f_var

Однако я нахожу, что что даже при разумных начальных значениях для гиперпараметров ядра разложение по Холесскому все еще часто бывает неудачным. Похоже, что GPflow пытается минимизировать эту проблему, добавляя джиттер по умолчанию 1e6 к K перед декомпозицией, и что общее предложение для устранения проблем декомпозиции состоит в том, чтобы настроить количество джиттера .

Я вижу в исходном коде, где джиттер добавляется к Forex_F_Samples , но GPflow по умолчанию добавляет джиттер как часть метода Forett_f? Если так, то где в исходном коде? И что я должен сделать, чтобы избежать неудач холестического разложения? Если нет, то может ли это быть причиной того, что моя модель ломается, и я должен добавить 1e6 джиттера к K в скопированном выше классе GPR_diag?

Я также был бы очень признателен за любые предложения о том, как сделать класс GPR_diag лучше написанным.

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...