Ορίζουμε μια σειρά 6 τιμών
# R
data <- c(8,10,10,12,9,11)
data
## [1] 8 10 10 12 9 11
Μέσος
# R
mean <- mean(data)
mean
## [1] 10
Διάμεσος
# R
median <- median(data)
median
## [1] 10
Διακύμανση
# R
variance <- var(data)
variance
## [1] 2
Τυπική απόκλιση
# R
sd <- sd(data)
sd
## [1] 1.414214
Σύνοψη περιγραφικών στατιστικών
# R
summary(data)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.25 10.00 10.00 10.75 12.00
Ένα απλό γράφημα: boxplot
# R
boxplot(data)
Με την εντολή set.seed() ορίζουμε μια σειρά τυχαίαων αριθμών
# R
set.seed(1)
Δημιουργούμε ένα τυχαίο σετ δεδομένων με 100 αριθμούς ανάμεσα στο 1 και το 10
# R
data = runif(100,1,10)
data
## [1] 3.389578 4.349115 6.155680 9.173870 2.815137 9.085507 9.502077 6.947180
## [9] 6.662026 1.556076 2.853771 2.589011 7.183206 4.456933 7.928573 5.479293
## [17] 7.458567 9.927155 4.420317 7.997007 9.412347 2.909283 6.865064 2.129996
## [25] 3.404986 4.475027 1.120513 4.441492 8.827218 4.063141 5.338721 6.396092
## [33] 5.441872 2.675958 8.446360 7.016201 8.148159 1.971493 7.513399 4.701470
## [41] 8.388517 6.823542 8.046395 5.977327 5.767476 8.104206 1.209981 5.295071
## [49] 7.590824 7.234584 5.298577 8.750885 4.942874 3.203175 1.636111 1.895195
## [57] 3.846445 5.667708 6.958046 4.661472 9.215883 3.642430 5.131592 3.991552
## [65] 6.857834 3.322151 5.306907 7.896796 1.758222 8.877892 4.051656 8.554963
## [73] 4.120151 4.003974 5.287161 9.029785 8.779055 4.509906 7.995886 9.645562
## [81] 4.911935 7.412632 4.599949 3.928169 7.813784 2.824230 7.400091 2.095227
## [89] 3.209397 2.289739 3.156665 1.530409 6.780594 8.886423 8.010232 8.175779
## [97] 5.097470 4.690757 8.297832 6.444400
plot(data)
hist(data)
Μέσος
# R
mean <- mean(data)
mean
## [1] 5.660624
Διάμεσος
# R
median <- median(data)
median
## [1] 5.390296
Διακύμανση
# R
variance <- var(data)
variance
## [1] 5.79973
Τυπική απόκλιση
# R
sd <- sd(data)
sd
## [1] 2.408263
Σύνοψη περιγραφικών στατιστικών
# R
summary(data)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.121 3.908 5.390 5.661 7.905 9.927
Ένα απλό γράφημα: boxplot
# R
boxplot(data)
Ορίζουμε πληθυσμό αριθμών από το 1 ως το 1000 και καλούμε ένα τυχαίο δείγμα 20 ατόμων
# R
population <- 1:1000
sample <- sample(population, 20)
sample
## [1] 924 620 304 545 557 661 287 614 145 329 487 855 851 630 498 858 816 619 576
## [20] 490
Περιγραφική στατιστική του δείγματος (μέγεθος, εύρος και IQR)
# R
length(sample)
## [1] 20
range(sample)
## [1] 145 924
IQR(sample)
## [1] 210.5
Μέσος και διάμεσος πληθυσμού και δείγματος
# R
mean(population)
## [1] 500.5
median(population)
## [1] 500.5
mean(sample)
## [1] 583.3
median(sample)
## [1] 595
Μέτρα διασποράς (αμερόληπτα)
# R
var(sample)
## [1] 44894.54
sd(sample)
## [1] 211.8833
Υπολογισμός διακύμανσης και τυπικής απόκλισης χωρίς διόρθωση
# R
var_biased <- sum((sample - mean(sample))^2)/length(sample)
var_biased
## [1] 42649.81
sd_biased <- sqrt(var_biased)
sd_biased
## [1] 206.5183
Άθροισμα υπολειμματικών τιμών
# R
sum(population - mean(population))
## [1] 0
sum(sample - mean(sample))
## [1] 9.094947e-13
Άθροισμα τετραγώνων υπολειμματικών τιμών
# R
sum((sample - mean(sample))^2)
## [1] 852996.2
Άθροισμα απόλυτων υπολειμματικών τιμών
# R
sum((sample - mean(sample))^2)
## [1] 852996.2
Άσκηση 1: Δημιουργήστε έναν πληθυσμό αριθμών από το 1 ως το 2000 και ένα τυχαίο δείγμα μεγέθους 40. Υπολογίστε τα στατιστικά στο δείγμα: εύρος, IQR, μέσο, διάμεσο, διακύμανση, τυπική απόκλιση
Άσκηση 2: Για τον ίδιο πληθυσμό αριθμών από το 1 ως το 2000, δημιουργήστε τρία δείγματα μεγέθους 10, 50 και 100. Για κάθε ένα δείγμα υπολογίστε τον μέσο και τη διακύμανση. Συμπληρώστε τις τιμές που βρήκατε στο: https://docs.google.com/spreadsheets/d/1jnXQPbJKkIEyyhSNf48KmA_a2kofTBJJvLRDvxItIgE/edit?usp=sharing