डेटा.टेबल में समूह द्वारा चलती विंडो में (रिवर्स) संचयी रकम प्राप्त करने का प्रयास कर रहा है। उदाहरण के लिए, निम्नलिखित डेटा से मैं उन मानों को "रोल_कमसम" कॉलम में प्राप्त करना चाहता हूं:

dt = data.table()
dt[, a := seq(1, 10, 1)]
dt[, group := rep(1:2, each = 5)]
dt[, roll_cumsum := c(15, 14, 12, 9, 5, 40, 34, 27, 19, 10)]

मुझे नीचे दिए गए कोड के साथ वांछित परिणाम मिले लेकिन यह एक बड़े डेटासेट के लिए काफी धीमा है:

partial_sum = function(x) { n <- seq_along(x); cumsum(x)[length(x)] - cumsum(x)[n] + x[n] }
dt[, partial_sum(a), by = group]

गणना को तेज करने के लिए कोई सुझाव? बहुत - बहुत धन्यवाद!

3
jayc 15 जिंदा 2021, 07:23

2 जवाब

सबसे बढ़िया उत्तर

एक revcumsum फ़ंक्शन है

library(spatstat.utils)
dt[, roll_cumsum2 := revcumsum(a), group]

आउटपुट

dt
#     a group roll_cumsum roll_cumsum2
# 1:  1     1          15           15
# 2:  2     1          14           14
# 3:  3     1          12           12
# 4:  4     1           9            9
# 5:  5     1           5            5
# 6:  6     2          40           40
# 7:  7     2          34           34
# 8:  8     2          27           27
# 9:  9     2          19           19
#10: 10     2          10           10

या बस reverse . करें

dt[, roll_cumsum2 := rev(cumsum(rev(a))), group]

आउटपुट

dt
#     a group roll_cumsum roll_cumsum2
# 1:  1     1          15           15
# 2:  2     1          14           14
# 3:  3     1          12           12
# 4:  4     1           9            9
# 5:  5     1           5            5
# 6:  6     2          40           40
# 7:  7     2          34           34
# 8:  8     2          27           27
# 9:  9     2          19           19
#10: 10     2          10           10

या दूसरा तरीका है

dt[, roll_cumsum2 := cumsum(a[.N:1])[.N:1], group]

नोट: दोनों कॉम्पैक्ट संस्करण हैं

मानक

dt1 <- data.table(a = 1:1e7, group = rep(1:1e6, length.out = 1e7,  10))
system.time(dt1[, roll_cumsum := partial_sum(a), by = group])
#user  system elapsed 
# 2.073   0.037   2.094 
system.time(dt1[, roll_cumsum2 := revcumsum(a), group])
#user  system elapsed 
#  2.623   0.029   2.637 

system.time(dt1[, roll_cumsum3 := rev(cumsum(rev(a))), group])
#user  system elapsed 
#  4.275   0.051   4.276 

system.time(dt1[, roll_cumsum4 := cumsum(a[.N:1])[.N:1], group])
#user  system elapsed 
# 1.703   0.028   1.722 

system.time(dt1[, roll_cumsum5 := sum(a) - cumsum(shift(a, fill = 0)), group])
# user  system elapsed 
# 10.095   0.041  10.129 
2
akrun 15 जिंदा 2021, 07:54

आप प्रत्येक समूह में sum(a) से a का संचयी योग घटा सकते हैं।

library(data.table)
dt[, roll_cumsum1 :=  sum(a) - cumsum(shift(a, fill = 0)), group]
dt

#     a group roll_cumsum roll_cumsum1
# 1:  1     1          15           15
# 2:  2     1          14           14
# 3:  3     1          12           12
# 4:  4     1           9            9
# 5:  5     1           5            5
# 6:  6     2          40           40
# 7:  7     2          34           34
# 8:  8     2          27           27
# 9:  9     2          19           19
#10: 10     2          10           10
2
Ronak Shah 15 जिंदा 2021, 07:27