Диаграммы Санки в R? - PullRequest
       51

Диаграммы Санки в R?

85 голосов
/ 02 апреля 2012

Я пытаюсь визуализировать свой поток данных с помощью диаграммы Санки в R.

Я нашел это сообщение в блоге со ссылкой на скрипт R, который создает диаграмму Санки, к сожалению, он довольно сырой и несколько ограниченный (см. Ниже пример кода и данных).

Кто-нибудь знает о других скриптах - или, может быть, даже о пакете - который более развит? Моя конечная цель - визуализировать как поток данных, так и проценты по относительному размеру компонентов диаграммы, как в этих примерах Sankey Diagrams .

Я разместил несколько похожий вопрос в списке r-справки , но после двух недель без каких-либо ответов я пытаюсь попытать счастья здесь на stackoverflow.

Спасибо, Eric

PS. Я знаю о графике параллельных наборов , но это не то, что я ищу.

# thanks to, https://tonybreyal.wordpress.com/2011/11/24/source_https-sourcing-an-r-script-from-github/
  sourc.https     <- function(url, ...) {
# install and load the RCurl package 
if (match('RCurl', nomatch=0, installed.packages()[,1])==0) {
  install.packages(c("RCurl"), dependencies = TRUE)
  require(RCurl)  
} else require(RCurl)    

# parse and evaluate each .R script
  sapply(c(url, ...), function(u) {
    eval(parse(text = getURL(u, followlocation = TRUE, 
    cainfo  = system.file("CurlSSL", "cacert.pem", 
    package = "RCurl"))), envir = .GlobalEnv)
 } )
 }

# from https://gist.github.com/1423501
sourc.https("https://raw.github.com/gist/1423501/55b3c6f11e4918cb6264492528b1ad01c429e581/Sankey.R")

# My example (there is another example inside Sankey.R):
inputs = c(6, 144)
losses = c(6,47,14,7, 7, 35, 34)
unit = "n ="

labels = c("Transfers",
           "Referrals\n",
           "Unable to Engage",
           "Consultation only",
           "Did not complete the intake",
           "Did not engage in Treatment",
           "Discontinued Mid-Treatment",
           "Completed Treatment",
           "Active in \nTreatment")

SankeyR(inputs,losses,unit,labels)

# Clean up my mess
rm("inputs", "labels", "losses", "SankeyR", "sourc.https", "unit")

Диаграмма Санки, полученная с указанным кодом, Sankey Diagram produced with the code above

Ответы [ 10 ]

60 голосов
/ 18 марта 2014

Этот график может быть создан с помощью пакета networkD3.Это позволяет создавать интерактивные диаграммы Санки.Здесь вы можете найти пример .Я также добавил скриншот, чтобы у вас было представление, как он выглядит.

# Load package
library(networkD3)

# Load energy projection data
# Load energy projection data
URL <- paste0(
        "https://cdn.rawgit.com/christophergandrud/networkD3/",
        "master/JSONdata/energy.json")
Energy <- jsonlite::fromJSON(URL)
# Plot
sankeyNetwork(Links = Energy$links, Nodes = Energy$nodes, Source = "source",
             Target = "target", Value = "value", NodeID = "name",
             units = "TWh", fontSize = 12, nodeWidth = 30)

enter image description here

41 голосов
/ 03 марта 2014

Я создал пакет ( riverplot ), который имеет немного отличную, но частично совпадающую функциональность по сравнению с функцией Sankey, и может создавать графики, подобные этому:

enter image description here

39 голосов
/ 04 апреля 2012

Если вы хотите сделать это с помощью R, лучшим предложением будет предложение @Roman - взломайте функцию SankeyR .Например, ниже мое очень быстрое исправление - просто расположите метки по вертикали, слегка сместите их и уменьшите шрифт для входных рефералов, чтобы он выглядел немного лучше.Эта модификация изменяет только строки 171 и 223 в функции SankeyR :

    #line171 - change oversized font size of input label
    fontsize = max(0.5,frInputs[j]*1.5)#1.5 instead of 2.5 

    #line223 - srt changes from 35 to 90 to orient labels vertically, 
    #and offset adjusts them to get better alignment with arrows
    text(txtX, txtY, fullLabel, cex=fontsize, pos=4, srt=90, offset=0.1)

enter image description here

Я не асе в тригонометрии, но это действительно то, что вынужно поменять направление стрелки.На мой взгляд, это было бы идеальным вариантом - если бы вы могли настраивать потерянные стрелки так, чтобы они были ориентированы по горизонтали, а не по вертикали.Иначе, почему мое решение решает проблему с ориентацией меток, это не делает диаграмму намного более читабельной ...

22 голосов
/ 04 ноября 2014

В дополнение к rCharts , диаграммы Санки теперь можно также генерировать в R с googleVis (версия> = 0.5.0).Например, эта запись описывает создание следующей диаграммы с помощью googleVis: enter image description here

15 голосов
/ 25 апреля 2017
Пакет

R также сделает это (от ?alluvial).

# install.packages(c("alluvial"), dependencies = TRUE)
require(alluvial)

# Titanic data
tit <- as.data.frame(Titanic)

# 4d
alluvial( tit[,1:4], freq=tit$Freq, border=NA,
     hide = tit$Freq < quantile(tit$Freq, .50),
     col=ifelse( tit$Class == "3rd" & tit$Sex == "Male", "red", "gray") )

enter image description here

10 голосов
/ 28 июля 2017

график имеет ту же мощность, что и пакет networkD3 ( пример ссылки ).

enter image description here

6 голосов
/ 04 апреля 2012

Судя по этим определениям этой функции, как и графику параллельных наборов, не хватает способности разделять и объединять потоки (т. Е. Через несколько переходов).

С Санкидиаграммы представляют собой ориентированные взвешенные графы , может пригодиться пакет типа qgraph .

Функция SankeyR обеспечивает более четкие метки, если вы сортируете потери в порядке убывания при размещении текстаближе к наконечникам стрел без наложения.

5 голосов
/ 21 марта 2016

посмотрите на // sankeybuilder.com , поскольку он предлагает готовое решение, в котором вы можете загружать свои данные и воспроизводить варианты во времени.Переход работает хорошо (похоже на демонстрацию YouTube в вашем вопросе).Если вы загружаете демонстрацию SankeyTrend, она включает в себя много временных интервалов (Годы данных).После загрузки (автоматически создает sankeys), нажмите кнопку воспроизведения в верхнем правом углу страницы для воспроизведения временных интервалов, вы даже можете приостановить и возобновить время.URL демонстрации здесь: SankeyTrend Надеюсь, это поможет вам в поисках идеальной диаграммы Санки.

2 голосов
/ 14 ноября 2018

Для полноты, есть также пакет ggalluvial, который является ggplot2 extension для аллювиальных диаграмм / диаграмм Санки.

Вот пример, взятый из документации пакета

# devtools::install_github("corybrunson/ggalluvial", ref = "optimization")
library(ggalluvial)

titanic_wide <- data.frame(Titanic)
ggplot(data = titanic_wide,
       aes(axis1 = Class, axis2 = Sex, axis3 = Age,
           y = Freq)) +
  scale_x_discrete(limits = c("Class", "Sex", "Age"), expand = c(.1, .05)) +
  xlab("Demographic") +
  geom_alluvium(aes(fill = Survived)) +
  geom_stratum() + geom_text(stat = "stratum", label.strata = TRUE) +
  theme_minimal() +
  ggtitle("passengers on the maiden voyage of the Titanic",
          "stratified by demographics and survival") +
  theme(legend.position = 'bottom')

ggplot(titanic_wide,
       aes(y = Freq,
           axis1 = Survived, axis2 = Sex, axis3 = Class)) +
  geom_alluvium(aes(fill = Class),
                width = 0, knot.pos = 0, reverse = FALSE) +
  guides(fill = FALSE) +
  geom_stratum(width = 1/8, reverse = FALSE) +
  geom_text(stat = "stratum", label.strata = TRUE, reverse = FALSE) +
  scale_x_continuous(expand = c(0, 0), 
                     breaks = 1:3, labels = c("Survived", "Sex", "Class")) +
  scale_y_discrete(expand = c(0, 0)) +
  coord_flip() +
  ggtitle("Titanic survival by class and sex")

Создано в 2018-11-13 пакетом Представить (v0.2.1.9000)

1 голос
/ 04 октября 2017

Просто откройте исходный пакет, который использует аллювиальную диаграмму для визуализации этапов рабочего процесса. Поскольку история сохраняется при использовании аллювиальной формы, на краях нет пересечений.

https://github.com/claytontstanley/shiny.alluvial

enter image description here

...