Now Loading ...
-
-
모집단과 샘플링
모집단(population) 샘플링(sampling)
어떠한 정보를 구하려고 할때 해당 대상의 전체 집합을 모집단(population)이라고 하며 이러한 모집단에서 임의의 집합을 추출하면 이것을 샘플링(sampling)한다고 할 수있다.
이러한 샘플링에는 복원추출과 비복원추출이 있으며, 복원추출은 추출한 데이터를 포함하여 다시 추출하는것을 이르고 비복원추출은 추출한 데이터를 포함하지 않고 추출하는것이다.
샘플링 기법으로는 단순(simaple random), 층화(stratified), 계통(systematic), 군집(cluster) 샘플링이 대표적이다. 단순 샘플링은 랜덤하게 추출한것, 층화 샘플링은 그룹화된 모집단에서 균일한 갯수의 요소들을 추출한것, 계통 샘플링은 매 k번째 요소를 추출하는것, 군집 샘플링은 군집화된 집단들에서 몇개를 선택하는것이다.
모집단에서 영향받은 독립 분포(iid)(independent & identically distributed)
샘플의 이상적인 상황을 의미하며 iid일 경우 랜덤샘플 $X_1,…,X_k$, 모집단 $f(x: \theta)$ 이면 $X_1,…,X_k \overset {iid}{\sim} f(x: \theta)$으로 나타낼 수 있다.
랜덤샘플 $X_1,…,X_k$일때 $u(X_1,…,X_k)$를 통계량(statistic)으로 표기할 수 있다.
표본 변수(sample variable)와 불편향성(unbiased estimator)
모집단 $X \sim Bernoulli(p)$에서 $iid$ 랜덤샘플 $X_1,…,X_k$일때,
표본비율(sample rate) $\hat{P}:={1 \over n}(X_1+ \cdots + X_n)$,
표본평균(sample mean) $\bar{X} := {1 \over n} \sum_{i=1}^n X_i$
표본분산(sample variance) $S^2:={1 \over {n-1}} \sum_{i=1}^n{(X_i-\bar{X})^2}$
이 된다.
$X \sim (\mu , \sigma ^2) \rightarrow E(\bar{X})=\mu , \; E(S^2)=\sigma ^2$ 일때 $\bar{X}, \; S^2$을 불편향성(unbiased estimator)을 가진다고 한다.
MATH
/
Statistic
· 2023-08-03
-
표본분포
카이제곱분포($X^2$ distribution)
$k \in \mathbb{N}$이고 $Z_{11}^2, \cdots ,Z_{1k}^2 \overset{iid}{\sim} N(0,1)$ 일때 $X \sim X^2(k) \overset{def}{\leftrightarrow} X \overset{d}{\equiv} Z_{11}^2+ \cdots +Z_{1k}^2$를 카이제곱분포($X^2$ distribution)라고 부르며 $k$를 자유도(degree of freedom)이라고 부른다.
$X \sim X^2(k) \rightarrow E(X) =k, Var(X)=2k$ ( $\therefore k$가 커질 수록 그래프가 오른쪽으로 이동하며 평평해진다.)
$X_1,…,X_n \overset{iid}{\sim} N(\mu, \sigma ^2)$ 일때,
$\bar{X} \sim N(\mu, \sigma ^2 / n)$
$S^2=\sum(X_i-\bar{X})^2/(n-1)$ $in$ $\bar{X}$ : independent
${(n-1)S^2 \over {\sigma ^2}} \sim X^2(n-1)$
카이제곱 분포는 모집단의 분산을 추정하기 위해 사용한다.
t분포(t-distribution)
$Z \sim N(0,1), \; V \sim X^2(r), \; Z,V$: 독립적 일때, $X \overset{d}{\equiv} {Z \over {\sqrt{V/r}}} \sim t(r)$ 이다.
$X_1,…,Xn \overset{iid}{\sim} N(\mu,\sigma ^2) \rightarrow {\bar{X}-\mu \over {S/\sqrt{n}}} \sim t(n-1)$ (모표준편차를 표본표준편차로 대체하는것)
t분포는 표본의 크기가 작거나 모분산을 알 수 없을때(위와 같이 표준편차를 대체하여) 모집단의 평균은 측정할때 사용된다.
f분포(f-distribution)
$V_1 \sim X^2(r_1), \; V_2 \sim X^2(r_2), \; V_1,V_2$: 독립
$F \overset{d}{\equiv}{V_1/r_1 \over {V_2/r_2}} \sim F(r_1-1,r_2-1)$
두개 이상의 모집단의 분산비를 추론하여 비교할때 사용된다.
MATH
/
Statistic
· 2023-08-02
-
-
중심극한정리와 큰수의 법칙
중심극한정리(CLT)(central limit theorem)
$X_1,…,X_n \overset{iid}{\sim}(\mu,\sigma^2)$ 이면서, $n$이 충분히 크다면 표준정규분포를 따르는데 이것을 중심극한정리(CLT)(central limit theorem)라고 한다.
큰수의 법칙(LLN)(law of large numbers)
$X_1,…,X_n \overset{iid}{\sim}(\mu,\sigma^2)$ 일때, $\forall \epsilon > 0, \; \underset{n \rightarrow \infty}{\lim}P(|\bar{x_n}-\mu| < \epsilon)=1$ 즉, 시행횟수가 늘어나면 통계적 확률이 수학적 확률에 수렴할 확률이 1에 가까워 진다는 것으로 큰수의 법칙(LLN)(law of large numbers)이라고 불린다.
MATH
/
Statistic
· 2023-07-31
-
-
확률
표본공간(sample space)과 사건(event)
전체 공간의 부분집합을 사건(event)이라고 정의하고 전체 공간에서 관측 가능한 모든 집합을 표본공간(sample space)이라고 한다.
확률(probability)
표본공간에서 다음의 규칙들을 만족하는 것을 확률(probability) $P$라고 한다.
$P(S)=1$
$\forall \; event \; A \; on \; S$, $0 \leq P(A) \leq 1$(positive measure)
$A_1,A_2,… : event \; with \; A_i \cup A_j=\phi$(=mutually disjoint)
→ $P(A_1 \cup \cdots ) = P(A_1) +\cdots$
확률변수(random variable)
$X:S \rightarrow R$인 함수가 모든 출력을 포함하고 있으면 확률변수(random variable)라고 한다.
이산확률변수(discrete random variable)
확률변수는 크게 두종류로 나뉘어지며 countable 할 경우는 이산확률변수(discrete random variable)로 불려지며 확률을 계산을 할때 사용하는 확률밀도함수(probability density function)는
$f:X(X) \rightarrow [0,1]$, $f(x):=P(X=x)$
$P(a \leq X \leq b)= \underset{a\leq x \leq b}{\sum}f(x)$
로 나타낼 수있다.
연속확률변수(continuous random variable)과 연속균등분포(uniformdistribution)
uncountable할때는 연속확률변수(continuous random variable)로 불려지며 확률밀도함수는 $\int_a^bf(x)dx=P(a \leq X \leq b)$로 나타내진다.
연속확률변수가 균등한값을 가지게 되는 특이케이스를 연속균등분포(uniformdistribution)라고 부르며 다음과 같이 표기하기도한다. $-\infty < a < b < + \infty$, $f(x):=\begin{cases}
{1 \over {b-a}} \; if x\in[a,b] \
0 \; otherwise
\end{cases}$
확률에서의 변수들(variables in probability)
확률에서는 통계및 분석을 위해서 다양한 변수들을 구한다.
이산확률분포에서
기댓값(expectation)은 $E(X) = \mu :=\sum_x x\cdot f(x)$
분산(variance)은 $Var(X) :=E((x-\mu)^2) = E(X^2)-E(X)^2$
표준편차(standard deviation)는 $\sigma(X) := \sqrt{Var(X)}$
연속확률분포에서
기댓값은 $E(X) = \mu :=\int_{-\infty}^{+\infty} x\cdot f(x)dx$
분산은 $Var(X) :=\int_{-\infty}^{+\infty}(x-\mu)^2f(x)dx = E(X^2)-E(X)^2$
표준편차는 $\sigma(X) := \sqrt{Var(X)}$
확률분포(distributions)
베르누이 실행(bernoulli trial)
동전을 던져서 앞뒤를 확인 하는것처럼 단 1회의 기회에 참과 거짓이 있는것을 베르누이 실행(bernoulli trial)이라고 부른다.
이항분포(binomial distribution)
베르누이 실행과 같이 참과 거짓만 있는 분포도를 베르누이 분포(bernoulli distribution)라고 한다. 참과 거짓이 아닌 임의의 $p$확률과 $1-p$ 확률이 있을때 다회의 실행에서 나타내는 분포를 이항분포(binomial distribution)라고 부른다. 이는 $P(X=k)=
\begin{pmatrix}
n\
k
\end{pmatrix} \cdot p^k(1-p)^{n-k} (0 \leq k \leq n, k \leq \mathbb {Z})$로 표현되며 $X \sim B(n,p)$이다.
다항분포(multinomial distribution)
이항분포의 경우 두개의 경우에서만의 확률이라면 더많은 경우에서의 확률을 가질때는 다항분포(multinomical distribution)라고 칭하며 $n$번의 시행횟수, $k$개의 경우, 각확률이 $p_1,…,p_k$라고 할때, $P(X=(x_1,…,x_k))=
\begin{pmatrix}
n\
x_1,…,x_k
\end{pmatrix} \cdot p_1^{x_1} \cdots p_k^{x_k} (0 \leq k \leq n, k \leq \mathbb {Z}, p_i \in [0,1])$
표준정규분포(standard normal distribution)
$\phi(z):={1 \over \sqrt{2\pi}}e^{-{1 \over 2}z^2}$를 $pdf$로 가지는 확률분포를 표준정규분포(standard normal distribution)라고 부르며 $pdf$를 다음과 같이 $P(a \leq z \leq b)=\int_a^b \phi(z)dz, Z \sim N(0,1)$ 나타낸다.
정규분포(normal distribution) z-score
$\mu \in \mathbb{R}, \sigma > 0$이면서 ${1 \over \sigma}\phi({x-\mu \over \sigma})={1 \over \sqrt{2\pi}\sigma}e^{-{1 \over 2}({x-\mu \over \sigma})^2}$로 구성된 확률분포를 정규분포(normal distribution)라고 부르며 $pdf$를 다음과 같이 $P(a \leq x \leq b)=\int_a^b {1 \over \sigma}\phi({x-\mu \over \sigma})dx, X \sim N(\mu,\sigma^2)$ 나타낸다. 표준편차 $\sigma$에 해당되는 수치 별로 전체 데이터가 해당하는 비율을 알 수 있고 그것을 z점수(z-score)라고 부르며 $\sigma$에 해당하는 값을 68%, $2\sigma$에 해당하는 값을 95%라고 한다. 이와 같은 비율들로 이상치를 확인하기 쉬워진다.
푸아송분포(poisson distribution)
이항분포에서 시행 횟수가 무한히 클경우 계산하기 힘들어진다, 이때는 근사치를 이용하여 계산을 하는것이 비교적 쉬워지는데 이것을 푸아송근사 라고 칭하며 푸아송분포(poisson distribution)을 가지게 된다. $n \gg 1 \; \& \; p \ll 1$ s.t. $np_n \rightarrow \lambda \; as \; n \rightarrow \infty$ 일때 $pdf_X(x) ={n \choose x}p_n^x{(1-p_n)}^{n-x} \rightarrow {e^{-\lambda} \lambda^x \over x!} \; as \; n\rightarrow \infty$로 나타내진다. $X \sim Poisson(\lambda) \rightarrow E(X) =\lambda, \; Var(X)=\lambda$
MATH
/
Statistic
· 2023-07-26
-
-
-
선형성과 선형대수
선형대수학(linear algebra)
선형대수학(linear algebra)은 문자 그대로 연산의 선형성을 다루는것이다. 선형성을 따지기 위해서는 선형연산이 적용되는것을 확인해야한다.
선형연산(linear operations) 이항연산(binary operation)과 스칼라곱(scalar multiplication)
선형연산(linear operations)에는 이항연산(binary operation)과 스칼라곱(scalar multiplication)이 있으며, $V$가 비어있지 않은 집합일때 $\ast : V \times V \rightarrow V$이와 같은 상황에서 $V$에 대한 이항연산이라 부른다.
$\cdot : R \times V \rightarrow V$에서는 $V/R$에 대한 스칼라곱이라 부른다.
백터공간(vertor space)
위와 같은 선형연산을 가지는 집합을 백터공간(vertor space)라고 부고 여기에는 다음과 같은 규칙들이 있다.
$(v,t):abelian \;group$
$(v,t):group$
결합법칙(associativity) : $(v+w)+u=v+(w+u)$ for $v,w,u \in V$
항등원(identity) : $\exists 0_0 \in V$ s.t. $v+0_0=0_0+v=v$ in $\forall v \in V$
역원(inverse) : $\forall v \in V, \exists v^` \in V s.t. v+v^` =v^`+v=0$
교환법칙(commutative property) : $v+w=w+v$ for $w,v \in V$
분배법칙(distributivity) $ in \; a,b\in R \; v,w\in V$
$(a+b)v = av+bv$
$(ab)v = a(bv)$
$A(v+w)=av+aw$
$1 \cdot v =v$, $\forall v \in V$
선형사상(linear map)
두개의 백터공간이 입력과 출력이 되는 함수가 선형성을 가질경우 선형사상(linear map)이라 한다.
선형대수학의 기본정리(Fundamental Theorem of Linear Algebra, FTLA)
선형대수학의 기본정리(Fundamental Theorem of Linear Algebra, FTLA)에 따르면 선형사상과 행렬은 같은것으로 취급할 수있다.
MATH
/
Basic
· 2023-07-21
-
이항정리
팩토리얼(factorial)
1에서 부터 $n$까지의 숫자를 전부 곱하는것을 $n!$라고 표기할 수 있으며 이를 팩토리얼(factorial)이라고 한다. 수식을 정리하면
$n! := \underset{1 \leq m \leq n}{\prod} m = n \times (n-1) \times \cdots \times 2 \times 1$ 와 같다.
이항정리(binomical theorem) 이항계수(binomical coefficient)
두개의 항을 가진 이항식을 거듭제곱을 하는경우를 단항식으로 나열하는것을 이항정리(binomical theorem)라고 하며 수식으로는 ${(a+b)}^n = \underset{r=0}{\overset{n}{\sum}}{n \choose r}a^rb^{n-r}$ 와 같이 표현을 한다.
이항정리에서 사용하는 계수를 이항계수(binomical coefficient)라고 하며 다음과 같이 정의한다 . ${n \choose r} := { n! \over r!(n-r)!}$
다항정리(multinomical theorem) 다항계수(multinomical coefficient)
이항정리와 이항계수를 차수를 높여서 포면 고차항에서도 사용이 가능하며 이를 다항정리(multinomical theorem)와 다항계수(multinomical coefficient)라고 한다. 다항정리는 다음과 같이 표현하며
${(a_1+ \cdots +a_n)}^n = \underset{\underset{r_i \in N \cup {{0}}}{r_1+ \dots +r_k=1}}{\overset{n}{\sum}}{n \choose r_1, \cdots, r_k}a_1^{r1} \cdots a_k^{r_k}$
다항계수는 다음과 같이 표현한다.
${n \choose r_1, \cdots, r_k} := { n! \over (r_1, \dots , r_k)!}$
$\quad n, r_1, \cdots, r_k \in N \cup {{0}}, \overset {k}{\underset {i=1}{\sum}}r_i=n$
MATH
/
Basic
· 2023-07-20
-
-
함수
이진관계와(binary relation) 순서쌍(ordered pair)
집합 $A, B$가 있을때 $a \in A, \; b \in B$일경우 $A$에서 $B$로의 이진관계(binary relation)($R$)는 순서쌍(ordered pair) (a,b)로 이루어진 집합이며 $A \times B$의 부분집합이다.
함수(function)
$f \subset A \times B$이면서 $a \in A$와 매칭되는 유일한 $b \in B$를 가질경우 $f$를 $A$에서 $B$로 향하는 함수(function)라고 칭한다.
정의역(domain) 공역(codomain) 치역(range / image) 그래프(graph)
$(a,b) \in f$에서 $x \in A$의 경우 $A$를 정의역(domain)이라고 하고 $y \in B$의 경우 $B$를 공역(codomain)이라고 한다. $A$에서 $B$로 향하는 $f(A) := {{f(x) \; : \; x \in A}}$는 치역(range / image)이라고 한다.
$f: A \rightarrow B$에서 $G(f) := {{(x,f(x) \; : \; x \in A }} \subset A \times B$ 인 경우 $G$를 $f$의 그래프(graph)라고 한다.
단사(injective / one-to-one) 전사(surjective/ onto) 일대일대응(bijective / an one-to-one correspondence)
함수에는 다양한 형태의 함수가 있으며 $A$에서 $B$로 향하는 함수가 있을 경우 $A$의 원소가 유일 할경우 이를 단사(injective / one-to-one)라고 칭하며 아래와 같이 나타낸다.
$f(x_1)=f(x_2) \rightarrow x_1=x_2$
$i.e., \;$ $\forall y \in f(A), \exists! x \in A \; s.t. \; y=f(x)$
$B$의 원소가 모두 사용될경우 이를 전사(surjective/ onto)라고 칭하며 아래와 같이 나타낸다.
$f(A)=B$ i.e. $f(A) \supset B$
$i.e., \; $ $\forall y \in B, \exists x \in A \; s.t. \; y=f(x)$
단사와 전사가 한번에 적용이 될경우를 일대일대응(bijective / an one-to-one correspondence)이라고 칭하며 아래와 같이 나타낸다.
$\forall y \in B, \exists !x \in A \; s.t. \; y=f(x)$
역함수(inverse function) preimage(역상)
$y=f(x)$가 있을때 $f^{-1}(y)=x$로 사용한 함수를 $f^{-1} : B \rightarrow A$인 상태의 역함수(inverse function)라고 지칭한다.
역함수와 서로 오해하기 쉬운것으로 오해하지 말아야 하는것이 있는데 그것을 역함수이면서 일대일대응 인것을 preimage(역상)이라 하며 $f^{-1}(Q) := {{x \in A :f(x) \in Q }}$를 $f$에 대한 $Q$의 역상이라 한다.
이동(translation)
$f:R \cdots> R$인 함수에서 함수 $y = f(x)$에서 $y+b=f(x-a)$로 변환된다면 이를 $x$축에서 $a$만큼 이동(translation), $y$축에서 $b$만큼 이동한다고 볼 수 있다. 또한 $y=f(ax)$은 $x$축에서 $1\over a$만큼 팽창(expansion)하고 $y = af(x)$은 $y$축에서 $a$만큼 팽창한다고 볼 수 있다.
볼록함수(convexity)
함수의 경우 다양한 형태의 모양을 가지게 되는데 $f: R \cdots > R$, $x,y \in Dom(f) \; with \; x<y \; and \; t \in [0,1]$에서 $f(tx+(1-t)y) \leq tf(x)+(1-t)f(y)$일경우는 볼록형(convex) $f(tx+(1-t)y) \geq tf(x)+(1-t)f(y)$일경우는 오목형(concave)이다.
$e.g., \; $로그 그래프와 같은 형태를 오목형이라고 한다.
MATH
/
Basic
· 2023-07-18
-
-
Touch background to close