probability statistics

확률이란

동전의 앞(또는 뒤)면이 나오는 확률

주사위의 3이 나올 확률

주사위 3보다 클 확률

여사건

$$ P(A) = 1 - P(A) $$

확률로의 수렴

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

x = []
y = []
total = 0  # 시행 수
num_5 = 0  # 5가 나온 횟수
n = 5000  # 주사위를 던진 횟수

for i in range(n):

    if np.random.randint(6)+1 == 5:  # 0-5까지의 랜덤인 수에 1을  더해서 1-6으로
        num_5 += 1

    total += 1
    x.append(i)
    y.append(num_5/total)

print("확률 = ", 1/6)       

plt.plot(x, y)
plt.plot(x, [1/6]*n, linestyle="dashed")  # y는 1/6이 n개 들어간 리스트

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

평균값과 기대값

평균값

$$ \mu = {(x_1 + x_2 + ... + x_n) \over n} $$

$$ \mu = {1 \over n } \sum_{k=1}^N x_k $$

import numpy as np

x = np.array([55, 45, 60, 40])  # 평균을 취하는 데이터 

print(np.average(x))

기댓값

$$ E = \sum_{k=1}^N P_kx_k $$

제비를 뽑아 80%확률로 100원, 15%확률로 500, 5%의 확률로 1000원 일때의 상금 기댓값

import numpy as np

p = np.array([0.8, 0.15, 0.05])  # 확률
x = np.array([100, 500, 1000])  # 값

print(np.sum(p*x))  # 기대값

분산과 표준편차

분산

$$ V = {1 \over n } \sum_{k=1}^N (x_k-\mu) $$

import numpy as np

# 분산을 취하는 데이터
x_1 = np.array([55, 45, 60, 40]) 
x_2 = np.array([51, 49, 52, 48]) 

# 분산의 계산
print(np.var(x_1))
print(np.var(x_2))

표준편차

import numpy as np

# 표준편차를 취하는 데이터
x_1 = np.array([55, 45, 60, 40]) 
x_2 = np.array([51, 49, 52, 48]) 

# 표준편차의 계산
print(np.std(x_1))
print(np.std(x_2))

확률변수와 확률분포

결정론적 데이터(deterministic data)

확률적 데이터(random data, probabilistic data, stochastic data)

분포(distribution)

기술 통계 descriptive statistics

확률변수

$$ X() = x$$

이산확률변수

$$ X=x_i $$ $$1$$ $$2$$ $$3$$ $$4$$ $$5$$ $$6$$ $$ sum $$
$$ P(X=x_i) $$ $$ 1\over6 $$ $$ 1\over6 $$ $$ 1\over6 $$ $$ 1\over6 $$ $$ 1\over6 $$ $$ 1\over6 $$ $$1$$

이산확률변수

정규분포(=가우스 분포)

이미지참조 : http://piramvill2.org/?p=3748

확률 밀도 함수

$$ \int _{a}^{b}f(x)dx $$

$$ f(x) = N(x|μ, σ^2) ={1 \over σ \sqrt{2\pi}}e^{-(x-μ)^2 \over 2σ^2}$$

정규분포곡선

표준정규분포( z-분포 곡선)

$$ Z = {X - μ \over σ} $$

$$ f(x) = N(0,1) ={1 \over \sqrt{2\pi}}e^{-z^2 \over 2}$$

표준화 후 확률변수X가 a에서 b까지의 값을 가질 확률

$$ P( {a-μ \over σ} \le Z \le {b-μ \over σ}) $$

표준정규분포표