Цвет каждой точки в многоугольнике в зависимости от другого набора данных точек, в R - PullRequest
1 голос
/ 31 мая 2019

Проблема:

1.) У меня есть шейп-файл , который выглядит следующим образом:

Shapefile

Предельные значения для координат: xmin = 300,000, xmax = 620,000, ymin = 31,000 и ymax = 190,000.

2.) У меня набор данных ок. 2 миллиона очков (каждая точка находится внутри данного многоугольника) - каждая из 5 различных категорий.

Теперь, для каждой точки внутри границы (расстояние между точками должно быть 10, чтобы мы получили 580,800,000 точек), я хочу определить цвет в зависимости от категории ближайшей точки в наборе данных.

В конце я хотел бы нарисовать ggplot, где цвет каждой точки зависит от ее категории (поэтому я буду использовать 5 разных цветов).

Что у меня так далеко:

Мои идеи для решения не оптимизированы, и требуется R навсегда, чтобы определить категории для каждой точки внутри многоугольника.

1.) Я создал новый набор данных с точками в форме прямоугольника с экстремальными значениями координат, с 10 единицами между точками. Из нового набора данных я выбрал точки, попавшие в границы полигонов (с функцией pnt.in.poly из пакета SDMTools). Затем я хотел найти ближайшие точки (из набора данных) каждой точки в многоугольнике и определенной категории, но мне так и не удалось получить подмножество из 580,800,000 точек (очевидно).

2.) Я пытался взять 2 миллиона очков и раскрасить область вокруг них, в зависимости от их категории, но это не сработало.

Я знаю, что невозможно нарисовать так много точек и увидеть разницу между графиком с 200,000,000 точками и графиком с 1,000,000 точками, но я хотел бы иметь точную окраску при масштабировании (рисовании) только одной небольшое пятно в многоугольнике (например, размер 100 x 100).

Вопрос: Есть ли лучший способ закрасить такое количество точек в многоугольнике (с помощью создания нового шейп-файла или группировки точек)?

Спасибо за ваши идеи!

1 Ответ

1 голос
/ 31 мая 2019

Это действительно полезно, если вы включаете в свой вопрос некоторые данные, даже (особенно), если это набор игрушечных данных.Как вы, я сделал игрушечный пример.Сначала я определяю простой фрейм данных формы и фрейм данных синтетических данных, которые включают x, y и grp (т. Е. Категориальную переменную с 5 уровнями).Я обрезаю последнее до первого и наносю на график результаты:

# Dummy shape function
df_shape <- data.frame(x = c(0, 0.5, 1, 0.5, 0),
                    y = c(0, 0.2, 1, 0.8, 0))

# Load library
library(ggplot2)
library(sgeostat) # For in.polygon function

# Data frame of synthetic data: random [x, y] and category (grp)
df_synth <- data.frame(x = runif(500),
                       y = runif(500),
                       grp = factor(sample(1:5, 500, replace = TRUE)))

# Remove points outside polygon
df_synth <- df_synth[in.polygon(df_synth$x, df_synth$y, df_shape$x, df_shape$y), ]

# Plot shape and synthetic data
g <- ggplot(df_shape, aes(x = x, y = y)) + geom_path(colour = "#FF3300", size = 1.5)
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_synth, aes(x = x, y = y, colour = grp))
g

Далее я создаю регулярную сетку и обрезаю ее, используя многоугольник.

# Create a grid
df_grid <- expand.grid(x = seq(0, 1, length.out = 50),
                       y = seq(0, 1, length.out = 50))

# Check if grid points are in polygon
df_grid <- df_grid[in.polygon(df_grid$x, df_grid$y, df_shape$x, df_shape$y), ]

# Plot shape and show points are inside
g <- ggplot(df_shape, aes(x = x, y = y)) + geom_path(colour = "#FF3300", size = 1.5)
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_grid, aes(x = x, y = y))
g

Чтобы классифицировать каждую точку в этой сетке по ближайшей точке в синтетическом наборе данных, я использую knn или k-ближайших соседей с k = 1. Это дает что-то вроде этого.

# Classify grid points according to synthetic data set using k-nearest neighbour
df_grid$grp <- class::knn(df_synth[, 1:2], df_grid, df_synth[, 3])

# Show categorised points
g <- ggplot()
g <- g + ggthemes::theme_clean()
g <- g + geom_point(data = df_grid, aes(x = x, y = y, colour = grp))
g

Итак, вот как я бы ответил на эту часть вашего вопроса о классификации точек на сетке.

Другая часть вашего вопроса, похоже, касается разрешения.Если я правильно понимаю, вам нужно такое же разрешение, даже если вы увеличиваете масштаб. Кроме того, вы не хотите наносить столько точек при уменьшении, поскольку вы даже не можете их видеть.Здесь я создаю функцию построения графика, которая позволяет вам указать разрешение.Сначала я строю все точки в форме с 50 точками в каждом направлении.Затем я строю субрегион (т. Е. Масштаб), но сохраняю одинаковое количество точек в каждом направлении одинаковым, чтобы оно выглядело почти так же, как предыдущий график с точки зрения количества точек.

res_plot <- function(xlim, xn, ylim, yn, df_data, df_sh){
  # Create a grid
  df_gr <- expand.grid(x = seq(xlim[1], xlim[2], length.out = xn),
                         y = seq(ylim[1], ylim[2], length.out = yn))

  # Check if grid points are in polygon
  df_gr <- df_gr[in.polygon(df_gr$x, df_gr$y, df_sh$x, df_sh$y), ]

  # Classify grid points according to synthetic data set using k-nearest neighbour
  df_gr$grp <- class::knn(df_data[, 1:2], df_gr, df_data[, 3])

  g <- ggplot()
  g <- g + ggthemes::theme_clean()
  g <- g + geom_point(data = df_gr, aes(x = x, y = y, colour = grp))
  g <- g + xlim(xlim) + ylim(ylim)
  g
}

# Example plot
res_plot(c(0, 1), 50, c(0, 1), 50, df_synth, df_shape)

# Same resolution, but different limits
res_plot(c(0.25, 0.75), 50, c(0, 1), 50, df_synth, df_shape)

Создано в 2019-05-31 пакетом Представить (v0.3.0)

Надеюсь, это ответит на ваш вопрос.

...