मेरे पास एक असाइनमेंट है जिसमें मुझे डेटासेट में विसंगतियों का पता लगाने की आवश्यकता है। मैं आर में 'विसंगति' पैकेज का उपयोग कर रहा हूं और सोच रहा था कि 'विसंगति' फ़ंक्शन के निम्नलिखित आउटपुट मानों की व्याख्या कैसे करें:
शेष_L1 शेष_L2
मैंने दस्तावेज़ीकरण की जाँच कर ली है, लेकिन मैं इन मानों के लिए परिकलन विधि नहीं ढूँढ पा रहा हूँ। क्या कोई इस गणना की व्याख्या कर सकता है?
1 उत्तर
anomolize प्रलेखन इसका एक अच्छा उदाहरण देता है कि कैसे anomolize()
को एक समय श्रृंखला में लागू करें
यह CRAN tidyverse डाउनलोड के लिए Remainder_L1
और Remainder_L2
मान उत्पन्न करता है (यह डेटा एनोमोलाइज़ पैकेज के साथ आता है, इसलिए डेटा आयात करने की कोई आवश्यकता नहीं है, बस नीचे दिए गए कोड को देखें कि यह कॉलम कैसे उत्पन्न करता है)
# install.packages("anomalize")
library(tidyverse)
library(tibbletime)
library(anomalize)
tidyverse_cran_downloads %>%
time_decompose(count, merge = TRUE) %>%
anomalize(remainder)
# package date count observed season trend remainder remainder_l1 remainder_l2 anomaly
# <chr> <date> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
# 1 broom 2017-01-01 1053 1053. -1007. 1708. 352. -1725. 1704. No
# 2 broom 2017-01-02 1481 1481 340. 1731. -589. -1725. 1704. No
# 3 broom 2017-01-03 1851 1851 563. 1753. -465. -1725. 1704. No
# 4 broom 2017-01-04 1947 1947 526. 1775. -354. -1725. 1704. No
# 5 broom 2017-01-05 1927 1927 430. 1798. -301. -1725. 1704. No
इन मूल्यों का क्या अर्थ है? अनोमोलाइज सोर्स कोड से हम देख:
"शेष_एल1" (विसंगतियों के लिए निचली सीमा), "शेष_एल2" (विसंगतियों के लिए ऊपरी सीमा)
ऊपर के उदाहरण में, यह पहली पंक्ति में कह रहा है, anomolize()
मान (1053) को एक विसंगति के रूप में मानेगा यदि यह -1725 से कम या 1725 से अधिक था।