1 Άσκηση με αυθαίρετες τιμές

1.1 Δημιουργούμε ένα σετ δεδομένων με τυχαίες τιμές (π.χ. βάρος βρεφών 15 μηνών)

Ορίζουμε μια σειρά 6 τιμών

# R
data <- c(8,10,10,12,9,11)
data
## [1]  8 10 10 12  9 11

1.2 Στατιστικά κεντρικής τάσης

Μέσος

# R
mean <- mean(data)
mean
## [1] 10

Διάμεσος

# R
median <- median(data)
median
## [1] 10

1.3 Στατιστικά διασποράς

Διακύμανση

# R
variance <- var(data)
variance
## [1] 2

Τυπική απόκλιση

# R
sd <- sd(data)
sd
## [1] 1.414214

1.4 Σύνοψη και boxplot

Σύνοψη περιγραφικών στατιστικών

# R
summary(data)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.25   10.00   10.00   10.75   12.00

Ένα απλό γράφημα: boxplot

# R
boxplot(data)

2 Άσκηση με τυχαίες τιμές

2.1 Δημιουργούμε τυχαία ποσοτικά δεδομένα

Με την εντολή set.seed() ορίζουμε μια σειρά τυχαίαων αριθμών

# R
set.seed(1)

Δημιουργούμε ένα τυχαίο σετ δεδομένων με 100 αριθμούς ανάμεσα στο 1 και το 10

# R
data = runif(100,1,10)
data
##   [1] 3.389578 4.349115 6.155680 9.173870 2.815137 9.085507 9.502077 6.947180
##   [9] 6.662026 1.556076 2.853771 2.589011 7.183206 4.456933 7.928573 5.479293
##  [17] 7.458567 9.927155 4.420317 7.997007 9.412347 2.909283 6.865064 2.129996
##  [25] 3.404986 4.475027 1.120513 4.441492 8.827218 4.063141 5.338721 6.396092
##  [33] 5.441872 2.675958 8.446360 7.016201 8.148159 1.971493 7.513399 4.701470
##  [41] 8.388517 6.823542 8.046395 5.977327 5.767476 8.104206 1.209981 5.295071
##  [49] 7.590824 7.234584 5.298577 8.750885 4.942874 3.203175 1.636111 1.895195
##  [57] 3.846445 5.667708 6.958046 4.661472 9.215883 3.642430 5.131592 3.991552
##  [65] 6.857834 3.322151 5.306907 7.896796 1.758222 8.877892 4.051656 8.554963
##  [73] 4.120151 4.003974 5.287161 9.029785 8.779055 4.509906 7.995886 9.645562
##  [81] 4.911935 7.412632 4.599949 3.928169 7.813784 2.824230 7.400091 2.095227
##  [89] 3.209397 2.289739 3.156665 1.530409 6.780594 8.886423 8.010232 8.175779
##  [97] 5.097470 4.690757 8.297832 6.444400
plot(data)

hist(data)

2.2 Στατιστικά κεντρικής τάσης

Μέσος

# R
mean <- mean(data)
mean
## [1] 5.660624

Διάμεσος

# R
median <- median(data)
median
## [1] 5.390296

2.3 Στατιστικά διασποράς

Διακύμανση

# R
variance <- var(data)
variance
## [1] 5.79973

Τυπική απόκλιση

# R
sd <- sd(data)
sd
## [1] 2.408263

2.4 Σύνοψη και boxplot

Σύνοψη περιγραφικών στατιστικών

# R
summary(data)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.121   3.908   5.390   5.661   7.905   9.927

Ένα απλό γράφημα: boxplot

# R
boxplot(data)

3 Άσκηση με πληθυσμό και δείγμα

3.1 Δημιουργούμε πληθυσμό και δείγμα

Ορίζουμε πληθυσμό αριθμών από το 1 ως το 1000 και καλούμε ένα τυχαίο δείγμα 20 ατόμων

# R
population <- 1:1000
sample <- sample(population, 20)
sample
##  [1] 924 620 304 545 557 661 287 614 145 329 487 855 851 630 498 858 816 619 576
## [20] 490

Περιγραφική στατιστική του δείγματος (μέγεθος, εύρος και IQR)

# R
length(sample)
## [1] 20
range(sample)
## [1] 145 924
IQR(sample)
## [1] 210.5

3.2 Στατιστικά κεντρικής τάσης και διασποράς (αμερόληπτα)

Μέσος και διάμεσος πληθυσμού και δείγματος

# R
mean(population)
## [1] 500.5
median(population)
## [1] 500.5
mean(sample)
## [1] 583.3
median(sample)
## [1] 595

Μέτρα διασποράς (αμερόληπτα)

# R
var(sample)
## [1] 44894.54
sd(sample)
## [1] 211.8833

3.3 Μέτρα διασποράς (μεροληπτικά)

Υπολογισμός διακύμανσης και τυπικής απόκλισης χωρίς διόρθωση

# R
var_biased <- sum((sample - mean(sample))^2)/length(sample)
var_biased
## [1] 42649.81
sd_biased <- sqrt(var_biased)
sd_biased
## [1] 206.5183

3.4 Υπολειμματικές τιμές (άθροισμα, άθροισμα τετραγώνων, άθροισμα απόλυτων τιμών)

Άθροισμα υπολειμματικών τιμών

# R
sum(population - mean(population))
## [1] 0
sum(sample - mean(sample))
## [1] 9.094947e-13

Άθροισμα τετραγώνων υπολειμματικών τιμών

# R
sum((sample - mean(sample))^2)
## [1] 852996.2

Άθροισμα απόλυτων υπολειμματικών τιμών

# R
sum((sample - mean(sample))^2)
## [1] 852996.2

4 Ασκήσεις για το σπίτι

Άσκηση 1: Δημιουργήστε έναν πληθυσμό αριθμών από το 1 ως το 2000 και ένα τυχαίο δείγμα μεγέθους 40. Υπολογίστε τα στατιστικά στο δείγμα: εύρος, IQR, μέσο, διάμεσο, διακύμανση, τυπική απόκλιση

Άσκηση 2: Για τον ίδιο πληθυσμό αριθμών από το 1 ως το 2000, δημιουργήστε τρία δείγματα μεγέθους 10, 50 και 100. Για κάθε ένα δείγμα υπολογίστε τον μέσο και τη διακύμανση. Συμπληρώστε τις τιμές που βρήκατε στο: https://docs.google.com/spreadsheets/d/1jnXQPbJKkIEyyhSNf48KmA_a2kofTBJJvLRDvxItIgE/edit?usp=sharing