Question

В моем граф-пакете (как в теории графов узлы, соединенные ребрами) у меня есть вектор, указывающий для каждого ребра узел происхождения from, вектор, указывающий для каждого ребра узел назначения to и вектор, обозначающий кривую каждого ребра curve.

По умолчанию я хочу, чтобы ребра имели кривую 0, если между двумя узлами имеется только одно ребро, и кривую 0,2, если между двумя узлами есть два ребра. Код, который я сейчас использую, является циклом for, и он довольно медленный:

curve <- rep(0,5)
from<-c(1,2,3,3,2)
to<-c(2,3,4,2,1)

    for (i in 1:length(from))
    {
        if (any(from==to[i] & to==from[i]))
        {
            curve[i]=0.2        

        }
    }

Так что в основном я ищу каждое ребро (один индекс в from и один в to), если есть какие-либо другие пары в from и to, которые используют те же узлы (числа).

Я ищу две вещи:

Способ определения, есть ли какая-либо пара узлов, между которыми есть два ребра (поэтому я могу пропустить цикл, если нет)
Способ ускорить этот цикл

#

EDIT:

Чтобы сделать это abit более понятным, приведем еще один пример:

from <- c(4L, 6L, 7L, 8L, 1L, 9L, 5L, 1L, 2L, 1L, 10L, 2L, 6L, 7L, 10L, 4L, 9L)
to <- c(1L, 1L, 1L, 2L, 3L, 3L, 4L, 5L, 6L, 7L, 7L, 8L, 8L, 8L, 8L, 10L, 10L)
cbind(from,to)
      from to
 [1,]    4  1
 [2,]    6  1
 [3,]    7  1
 [4,]    8  2
 [5,]    1  3
 [6,]    9  3
 [7,]    5  4
 [8,]    1  5
 [9,]    2  6
[10,]    1  7
[11,]   10  7
[12,]    2  8
[13,]    6  8
[14,]    7  8
[15,]   10  8
[16,]    4 10
[17,]    9 10

В этих двух векторах пара 3 идентична паре 10 (оба 1 и 7 в разных порядках), а пары 4 и 12 идентичны (оба 2 и 8). Поэтому я бы хотел, чтобы curve стал:

 [1,]  0.0
 [2,]  0.0
 [3,]  0.2
 [4,]  0.2
 [5,]  0.0
 [6,]  0.0
 [7,]  0.0
 [8,]  0.0
 [9,]  0.0
[10,]  0.2
[11,]  0.0
[12,]  0.2
[13,]  0.0
[14,]  0.0
[15,]  0.0
[16,]  0.0
[17,]  0.0

(как вектор, я дважды транспонировал, чтобы получить номера строк).

Решение

from <- c(4L, 6L, 7L, 8L, 1L, 9L, 5L, 1L, 2L, 1L, 10L, 2L, 6L, 7L, 10L, 4L, 9L)
to <- c(1L, 1L, 1L, 2L, 3L, 3L, 4L, 5L, 6L, 7L, 7L, 8L, 8L, 8L, 8L, 10L, 10L)

srt <- apply(cbind(from,to),1,sort)
dub <- duplicated(t(srt))|duplicated(t(srt),fromLast=T)
curve <- ifelse(dub,0.2,0)

Сравнительные решения

Вот некоторые примеры различных решений

> # for-loop
> system.time(
+ {
+ curve <- rep(0,5)
+     for (i in 1:length(from))
+     {
+         if (any(from==to[i] & to==from[i]))
+         {
+             curve[i]=0.2        
+ 
+         }
+     }
+ })
   user  system elapsed 
 171.49    0.05  171.98 

from <- sample(1:1000,100000,T)
> to <- sample(1:1000,100000,T)
> 
> # My solution:
> system.time(
+ {
+ srt <- apply(cbind(from,to),1,sort)
+ dub <- duplicated(t(srt))|duplicated(t(srt),fromLast=T)
+ curve <- ifelse(dub,0.2,0)
+ })
   user  system elapsed 
  16.92    0.00   16.94 
> 
> 
> # Marek 1:
> system.time(
+ {
+ srt <- cbind(pmin(from,to), pmax(from,to) )
+ dub <- duplicated(srt)|duplicated(srt,fromLast=T)
+ curve <- ifelse(dub,0.2,0)
+ })
   user  system elapsed 
   2.43    0.00    2.43 
> 
> # Marek 2:
> system.time(
+ {
+ srt <- cbind(ifelse(from>to,to,from),ifelse(from>to,from,to))
+ dub <- duplicated(srt)|duplicated(srt,fromLast=T)
+ curve <- ifelse(dub,0.2,0)
+ })
   user  system elapsed 
   2.67    0.00    2.70 
> 
> # Maiasaura:
> library(plyr)
> 
> system.time(
+ {
+ data=data.frame(cbind(id=1:length(from),from,to))
+ data=ddply(data, .(id), transform, f1=min(from,to),f2=max(from,to))
+ curved=data.frame(data[which(duplicated(data[,4:5])==TRUE),],value=0.2)
+ result=join(data[,4:5],curved[,4:6],by=intersect(names(data)[4:5],names(curved)[4:6]))
+ result$value[which(is.na(result$value))]=0
+ result=data.frame(from,to,curve=result$value)
+ })
   user  system elapsed 
 103.43    0.11  103.95

> # Marek 1 + Joshua
> > system.time(
> + {
> + srt <- cbind(pmin(from,to), pmax(from,to) )
> + curve <- ifelse(ave(srt[,1], srt[,1], srt[,2], FUN=length) > 1,
> 0.2, 0)
> + })    user  system elapsed 
>    7.26    0.00    7.25

, что дает самое быстрое решение:

srt <- cbind(pmin(from,to), pmax(from,to) )
dub <- duplicated(srt)|duplicated(srt,fromLast=T)
curve <- ifelse(dub,0.2,0)

Maiasaura · Answer 1 · 16 февраля 2011

Вот решение, использующее plyr

Сначала я объединяю from и to в data.frame

library(plyr)
data=data.frame(cbind(id=1:length(from),from,to))

данных

  id from to
1   1    4  1
2   2    6  1
3   3    7  1
4   4    8  2
5   5    1  3
6   6    9  3
7   7    5  4
8   8    1  5
9   9    2  6
10 10    1  7
11 11   10  7
12 12    2  8
13 13    6  8
14 14    7  8
15 15   10  8
16 16    4 10
17 17    9 10

тогда следующий результат должен выдать искомый результат:

data=ddply(data, .(id), transform, f1=min(from,to),f2=max(from,to))
curved=data.frame(data[which(duplicated(data[,4:5])==TRUE),],value=0.2)
result=join(data[,4:5],curved[,4:6],by=intersect(names(data)[4:5],names(curved)[4:6]))
result$value[which(is.na(result$value))]=0
result=data.frame(from,to,curve=result$value)

должен выдать:

   from to curve
1     4  1   0.0
2     6  1   0.0
3     7  1   0.2
4     8  2   0.2
5     1  3   0.0
6     9  3   0.0
7     5  4   0.0
8     1  5   0.0
9     2  6   0.0
10    1  7   0.2
11   10  7   0.0
12    2  8   0.2
13    6  8   0.0
14    7  8   0.0
15   10  8   0.0
16    4 10   0.0
17    9 10   0.0

Вы можете превратить вышеуказанный код в функцию

calculate_curve <- function (from,to)
{
data=data.frame(cbind(id=1:length(from),from,to))
data=ddply(data, .(id), transform, f1=min(from,to),f2=max(from,to))
curved=data.frame(data[which(duplicated(data[,4:5])==TRUE),],value=0.2)
result=join(data[,4:5],curved[,4:6],by=intersect(names(data)[4:5],names(curved)[4:6]))
result$value[which(is.na(result$value))]=0
return (result$value)
}

и просто сделай

curve=calculate_curve(from,to)

csgillespie · Answer 2 · 16 февраля 2011

Изменение

any(from==to[i] & to==from[i])

на

any(from==to[i]) && any(to==from[i])

может сэкономить немало времени.В вашем примере, если from и to реплицированы 5000 раз, время вычислений сокращается на 1/3.

При использовании &&, если первое условие равно FALSE, R не удосуживается оценить второе выражение.

Joshua Ulrich · Answer 3 · 16 февраля 2011

Если я правильно понимаю, вы можете использовать %in%:

curve[ to %in% from & from %in% to ] <- 0.2

Другое решение, основанное на вашем обновлении:

srt <- t(apply(cbind(from,to),1,sort))
curve <- ifelse(ave(srt[,1], srt[,1], srt[,2], FUN=length) > 1, 0.2, 0)

Aaron · Answer 4 · 16 февраля 2011

Как насчет использования outer?

from <- c(1,2,3,3,2)
to <- c(2,3,4,2,1)
out <- outer(from, to, `==`)
ifelse(rowSums(out) > 0 & colSums(out) > 0, 0.2, 0)

Как определить несколько одинаковых пар в двух векторах

#

Решение

Сравнительные решения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как определить несколько одинаковых пар в двух векторах

#

Решение

Сравнительные решения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов