Now Loading ...
-
-
모집단과 샘플링
모집단(population) 샘플링(sampling)
어떠한 정보를 구하려고 할때 해당 대상의 전체 집합을 모집단(population)이라고 하며 이러한 모집단에서 임의의 집합을 추출하면 이것을 샘플링(sampling)한다고 할 수있다.
이러한 샘플링에는 복원추출과 비복원추출이 있으며, 복원추출은 추출한 데이터를 포함하여 다시 추출하는것을 이르고 비복원추출은 추출한 데이터를 포함하지 않고 추출하는것이다.
샘플링 기법으로는 단순(simaple random), 층화(stratified), 계통(systematic), 군집(cluster) 샘플링이 대표적이다. 단순 샘플링은 랜덤하게 추출한것, 층화 샘플링은 그룹화된 모집단에서 균일한 갯수의 요소들을 추출한것, 계통 샘플링은 매 k번째 요소를 추출하는것, 군집 샘플링은 군집화된 집단들에서 몇개를 선택하는것이다.
모집단에서 영향받은 독립 분포(iid)(independent & identically distributed)
샘플의 이상적인 상황을 의미하며 iid일 경우 랜덤샘플 $X_1,…,X_k$, 모집단 $f(x: \theta)$ 이면 $X_1,…,X_k \overset {iid}{\sim} f(x: \theta)$으로 나타낼 수 있다.
랜덤샘플 $X_1,…,X_k$일때 $u(X_1,…,X_k)$를 통계량(statistic)으로 표기할 수 있다.
표본 변수(sample variable)와 불편향성(unbiased estimator)
모집단 $X \sim Bernoulli(p)$에서 $iid$ 랜덤샘플 $X_1,…,X_k$일때,
표본비율(sample rate) $\hat{P}:={1 \over n}(X_1+ \cdots + X_n)$,
표본평균(sample mean) $\bar{X} := {1 \over n} \sum_{i=1}^n X_i$
표본분산(sample variance) $S^2:={1 \over {n-1}} \sum_{i=1}^n{(X_i-\bar{X})^2}$
이 된다.
$X \sim (\mu , \sigma ^2) \rightarrow E(\bar{X})=\mu , \; E(S^2)=\sigma ^2$ 일때 $\bar{X}, \; S^2$을 불편향성(unbiased estimator)을 가진다고 한다.
MATH
/
Statistic
· 2023-08-03
-
표본분포
카이제곱분포($X^2$ distribution)
$k \in \mathbb{N}$이고 $Z_{11}^2, \cdots ,Z_{1k}^2 \overset{iid}{\sim} N(0,1)$ 일때 $X \sim X^2(k) \overset{def}{\leftrightarrow} X \overset{d}{\equiv} Z_{11}^2+ \cdots +Z_{1k}^2$를 카이제곱분포($X^2$ distribution)라고 부르며 $k$를 자유도(degree of freedom)이라고 부른다.
$X \sim X^2(k) \rightarrow E(X) =k, Var(X)=2k$ ( $\therefore k$가 커질 수록 그래프가 오른쪽으로 이동하며 평평해진다.)
$X_1,…,X_n \overset{iid}{\sim} N(\mu, \sigma ^2)$ 일때,
$\bar{X} \sim N(\mu, \sigma ^2 / n)$
$S^2=\sum(X_i-\bar{X})^2/(n-1)$ $in$ $\bar{X}$ : independent
${(n-1)S^2 \over {\sigma ^2}} \sim X^2(n-1)$
카이제곱 분포는 모집단의 분산을 추정하기 위해 사용한다.
t분포(t-distribution)
$Z \sim N(0,1), \; V \sim X^2(r), \; Z,V$: 독립적 일때, $X \overset{d}{\equiv} {Z \over {\sqrt{V/r}}} \sim t(r)$ 이다.
$X_1,…,Xn \overset{iid}{\sim} N(\mu,\sigma ^2) \rightarrow {\bar{X}-\mu \over {S/\sqrt{n}}} \sim t(n-1)$ (모표준편차를 표본표준편차로 대체하는것)
t분포는 표본의 크기가 작거나 모분산을 알 수 없을때(위와 같이 표준편차를 대체하여) 모집단의 평균은 측정할때 사용된다.
f분포(f-distribution)
$V_1 \sim X^2(r_1), \; V_2 \sim X^2(r_2), \; V_1,V_2$: 독립
$F \overset{d}{\equiv}{V_1/r_1 \over {V_2/r_2}} \sim F(r_1-1,r_2-1)$
두개 이상의 모집단의 분산비를 추론하여 비교할때 사용된다.
MATH
/
Statistic
· 2023-08-02
-
-
중심극한정리와 큰수의 법칙
중심극한정리(CLT)(central limit theorem)
$X_1,…,X_n \overset{iid}{\sim}(\mu,\sigma^2)$ 이면서, $n$이 충분히 크다면 표준정규분포를 따르는데 이것을 중심극한정리(CLT)(central limit theorem)라고 한다.
큰수의 법칙(LLN)(law of large numbers)
$X_1,…,X_n \overset{iid}{\sim}(\mu,\sigma^2)$ 일때, $\forall \epsilon > 0, \; \underset{n \rightarrow \infty}{\lim}P(|\bar{x_n}-\mu| < \epsilon)=1$ 즉, 시행횟수가 늘어나면 통계적 확률이 수학적 확률에 수렴할 확률이 1에 가까워 진다는 것으로 큰수의 법칙(LLN)(law of large numbers)이라고 불린다.
MATH
/
Statistic
· 2023-07-31
-
-
확률
표본공간(sample space)과 사건(event)
전체 공간의 부분집합을 사건(event)이라고 정의하고 전체 공간에서 관측 가능한 모든 집합을 표본공간(sample space)이라고 한다.
확률(probability)
표본공간에서 다음의 규칙들을 만족하는 것을 확률(probability) $P$라고 한다.
$P(S)=1$
$\forall \; event \; A \; on \; S$, $0 \leq P(A) \leq 1$(positive measure)
$A_1,A_2,… : event \; with \; A_i \cup A_j=\phi$(=mutually disjoint)
→ $P(A_1 \cup \cdots ) = P(A_1) +\cdots$
확률변수(random variable)
$X:S \rightarrow R$인 함수가 모든 출력을 포함하고 있으면 확률변수(random variable)라고 한다.
이산확률변수(discrete random variable)
확률변수는 크게 두종류로 나뉘어지며 countable 할 경우는 이산확률변수(discrete random variable)로 불려지며 확률을 계산을 할때 사용하는 확률밀도함수(probability density function)는
$f:X(X) \rightarrow [0,1]$, $f(x):=P(X=x)$
$P(a \leq X \leq b)= \underset{a\leq x \leq b}{\sum}f(x)$
로 나타낼 수있다.
연속확률변수(continuous random variable)과 연속균등분포(uniformdistribution)
uncountable할때는 연속확률변수(continuous random variable)로 불려지며 확률밀도함수는 $\int_a^bf(x)dx=P(a \leq X \leq b)$로 나타내진다.
연속확률변수가 균등한값을 가지게 되는 특이케이스를 연속균등분포(uniformdistribution)라고 부르며 다음과 같이 표기하기도한다. $-\infty < a < b < + \infty$, $f(x):=\begin{cases}
{1 \over {b-a}} \; if x\in[a,b] \
0 \; otherwise
\end{cases}$
확률에서의 변수들(variables in probability)
확률에서는 통계및 분석을 위해서 다양한 변수들을 구한다.
이산확률분포에서
기댓값(expectation)은 $E(X) = \mu :=\sum_x x\cdot f(x)$
분산(variance)은 $Var(X) :=E((x-\mu)^2) = E(X^2)-E(X)^2$
표준편차(standard deviation)는 $\sigma(X) := \sqrt{Var(X)}$
연속확률분포에서
기댓값은 $E(X) = \mu :=\int_{-\infty}^{+\infty} x\cdot f(x)dx$
분산은 $Var(X) :=\int_{-\infty}^{+\infty}(x-\mu)^2f(x)dx = E(X^2)-E(X)^2$
표준편차는 $\sigma(X) := \sqrt{Var(X)}$
확률분포(distributions)
베르누이 실행(bernoulli trial)
동전을 던져서 앞뒤를 확인 하는것처럼 단 1회의 기회에 참과 거짓이 있는것을 베르누이 실행(bernoulli trial)이라고 부른다.
이항분포(binomial distribution)
베르누이 실행과 같이 참과 거짓만 있는 분포도를 베르누이 분포(bernoulli distribution)라고 한다. 참과 거짓이 아닌 임의의 $p$확률과 $1-p$ 확률이 있을때 다회의 실행에서 나타내는 분포를 이항분포(binomial distribution)라고 부른다. 이는 $P(X=k)=
\begin{pmatrix}
n\
k
\end{pmatrix} \cdot p^k(1-p)^{n-k} (0 \leq k \leq n, k \leq \mathbb {Z})$로 표현되며 $X \sim B(n,p)$이다.
다항분포(multinomial distribution)
이항분포의 경우 두개의 경우에서만의 확률이라면 더많은 경우에서의 확률을 가질때는 다항분포(multinomical distribution)라고 칭하며 $n$번의 시행횟수, $k$개의 경우, 각확률이 $p_1,…,p_k$라고 할때, $P(X=(x_1,…,x_k))=
\begin{pmatrix}
n\
x_1,…,x_k
\end{pmatrix} \cdot p_1^{x_1} \cdots p_k^{x_k} (0 \leq k \leq n, k \leq \mathbb {Z}, p_i \in [0,1])$
표준정규분포(standard normal distribution)
$\phi(z):={1 \over \sqrt{2\pi}}e^{-{1 \over 2}z^2}$를 $pdf$로 가지는 확률분포를 표준정규분포(standard normal distribution)라고 부르며 $pdf$를 다음과 같이 $P(a \leq z \leq b)=\int_a^b \phi(z)dz, Z \sim N(0,1)$ 나타낸다.
정규분포(normal distribution) z-score
$\mu \in \mathbb{R}, \sigma > 0$이면서 ${1 \over \sigma}\phi({x-\mu \over \sigma})={1 \over \sqrt{2\pi}\sigma}e^{-{1 \over 2}({x-\mu \over \sigma})^2}$로 구성된 확률분포를 정규분포(normal distribution)라고 부르며 $pdf$를 다음과 같이 $P(a \leq x \leq b)=\int_a^b {1 \over \sigma}\phi({x-\mu \over \sigma})dx, X \sim N(\mu,\sigma^2)$ 나타낸다. 표준편차 $\sigma$에 해당되는 수치 별로 전체 데이터가 해당하는 비율을 알 수 있고 그것을 z점수(z-score)라고 부르며 $\sigma$에 해당하는 값을 68%, $2\sigma$에 해당하는 값을 95%라고 한다. 이와 같은 비율들로 이상치를 확인하기 쉬워진다.
푸아송분포(poisson distribution)
이항분포에서 시행 횟수가 무한히 클경우 계산하기 힘들어진다, 이때는 근사치를 이용하여 계산을 하는것이 비교적 쉬워지는데 이것을 푸아송근사 라고 칭하며 푸아송분포(poisson distribution)을 가지게 된다. $n \gg 1 \; \& \; p \ll 1$ s.t. $np_n \rightarrow \lambda \; as \; n \rightarrow \infty$ 일때 $pdf_X(x) ={n \choose x}p_n^x{(1-p_n)}^{n-x} \rightarrow {e^{-\lambda} \lambda^x \over x!} \; as \; n\rightarrow \infty$로 나타내진다. $X \sim Poisson(\lambda) \rightarrow E(X) =\lambda, \; Var(X)=\lambda$
MATH
/
Statistic
· 2023-07-26
Touch background to close