통계학개론

데이터자격시험/ADsP 2026. 5. 7. 16:18

1. 통계 개요

표본추출방법 (Sampling)

단순 랜덤 추출: 각 원소에 번호를 부여하여 무작위로 추출 (가장 기본).
계통 추출: 첫 번째 원소를 무작위로 정한 뒤, 일정 간격($K$번째)으로 추출.
층화 추출: 모집단을 서로 다른 이질적인 그룹(층)으로 나누고, 각 층 내에서 랜덤 추출 (그룹 내 동질, 그룹 간 이질).
군집 추출: 모집단을 동질적인 그룹(군집)으로 나누고, 특정 군집을 통째로 추출 (그룹 내 이질, 그룹 간 동질).

측정과 척도 (Measurement Scale)

명목 척도: 단순히 구분(성별, 혈액형).
서열(순서) 척도: 순서나 서열 존재(성적 순위, 직급).
등간(구간) 척도: 속성 간의 간격이 일정함. 0이 절대적이지 않음(온도, 지수).
비율 척도: 간격뿐만 아니라 비율 계산 가능. 0이 절대적 의미(없음)를 가짐(무게, 나이, 소득).

2. 확률과 확률분포

이산확률분포 vs 연속확률분포

이산(Discrete): 셀 수 있는 값.

베르누이(0, 1), 이항분포(n번의 베르누이), 포아송분포(특정 시간/공간 내 발생 건수), 기하분포.

주요 이산확률분포 비교

분포명	핵심 정의	확률 변수 (X)의 의미	실제 확률 예시
베르누이 분포	결과가 '성공' 아니면 '실패' 두 가지인 단판 승부	성공하면 $1$, 실패하면 $0$	동전 한 개를 던졌을 때 앞면($1$)이 나올 확률
이항 분포	베르누이 시행을 $n$번 반복했을 때의 결과	$n$번 시행 중 성공한 횟수	자유투 성공률이 80%인 선수가 10번 던져 7번 성공할 확률
포아송 분포	정해진 시간이나 공간 내에서 발생하는 사건	단위 시간/공간 당 사건 발생 횟수	어느 서비스 센터에 한 시간 동안 고객이 3명 방문할 확률
기하 분포	처음으로 성공이 나올 때까지 반복 시행	첫 성공이 나타날 때까지 실패한 횟수(또는 시행 횟수)	어떤 가챠(뽑기)에서 당첨 확률이 1%일 때, 100번째에 처음 당첨될 확

시험 대비 암기 팁 (ADsP 포인트)

베르누이 vs 이항:단 한 번의 시행이면 베르누이.여러 번($n$) 시행해서 그중 몇 번 성공했는지 따지면 이항.

포아송분포 키워드:문제에 '단위 시간', '단위 면적', '희귀한 사건'이라는 표현이 나오면 포아송분포일 확률이 매우 높습니다.

기하분포 키워드:'처음으로 성공할 때까지'라는 표현이 핵심입니다. (예: 야구 선수가 몇 타석 만에 첫 안타를 치는지 등)

연속(Continuous): 연속적인 실수 값.

정규분포(가장 대표), 표준정규분포(평균 0, 분산 1), t-분포(표본 작을 때), F-분포(분산 비교), $\chi^2$(카이제곱)분포(분산 검정).

주요 연속확률분포 비교

분포명	핵심 정의 및 특징	주요 용도 (시험 키워드)	비고
정규분포	평균($\mu$)과 표준편차($\sigma$)에 의해 모양이 결정되는 좌우 대칭의 종 모양 분포	자연/사회현상을 설명하는 가장 대표적인 분포	모든 통계적 추론의 기초
표준정규분포	정규분포를 평균이 0, 표준편차가 1이 되도록 표준화($Z$)한 분포	서로 다른 단위의 데이터를 비교하거나 확률을 계산할 때 사용	$Z$-분포라고도 함
t-분포	정규분포와 비슷하지만 양끝(꼬리)이 더 두꺼운 분포	표본 크기가 작을 때($n < 30$) 모평균 추정 및 검정	자유도가 커질수록 정규분포에 가까워짐
카이제곱($\chi^2$) 분포	정규분포를 따르는 모집단에서 추출한 표본들의 분산을 설명하는 분포	분산 검정, 독립성 검정, 적합도 검정	항상 0보다 큰 값만 가짐 (오른쪽으로 꼬리가 김)
F-분포	두 집단의 분산 비(Ratio)를 비교하기 위한 분포	분산 분석(ANOVA), 회귀 모델의 유의성 검정	두 개의 자유도를 가짐

기댓값, 분산, 표준 편차

기댓값(E(X)): 확률변수의 평균값.
분산(Var(X)): 데이터가 평균에서 얼마나 떨어져 있는지(퍼짐 정도).
표준 편차(SD): 분산에 루트를 씌운 값 (단위를 원래 데이터와 맞춤).

왜도와 첨도 (Shape of Distribution)

왜도(Skewness): 좌우 비대칭도.
- 0: 좌우 대칭.
- 양수(+): 오른쪽으로 긴 꼬리 (왼쪽에 데이터 밀집).
- 음수(-): 왼쪽으로 긴 꼬리 (오른쪽에 데이터 밀집).
첨도(Kurtosis): 뾰족한 정도.
- 3 (또는 지수에 따라 0): 정규분포의 뾰족함.
- 3보다 크면: 정규분포보다 더 뾰족함.

3. 추정과 가설검정

추정 (Estimation)

점추정: 모수를 하나의 수치로 추정 (예: 표본평균).
구간추정: 모수가 포함될 것으로 기대되는 구간을 추정 (신뢰구간 95%, 99% 등).

가설검정 (Hypothesis Testing)

귀무가설($H_0$): "차이가 없다, 효과가 없다" (지키고자 하는 현재 상태).
대립가설($H_1$): "차이가 있다, 새로운 효과가 있다" (연구자가 증명하고 싶은 것).
P-value(유의확률): 귀무가설이 맞다는 전제하에 현재 데이터가 나타날 확률.
- P-value < 유의수준(α)이면 귀무가설 기각 (=통계적으로 유의함).
제1종 오류: 실제로는 귀무가설이 맞는데 기각하는 오류 (더 위험하게 간주).
제2종 오류: 실제로는 대립가설이 맞는데 귀무가설을 채택하는 오류.

비모수 검정 (Non-parametric Test)

특징: 모집단의 분포를 가정하지 않음(정규성 가정이 깨질 때 사용). 양적 데이터가 아닌 순위(Rank)나 부호를 이용해 검정.
주요 방법: 부호 검정, 윌콕슨 순위합 검정, 크루스칼-왈리스 검정, 런 검정(Run test) 등.

223페이지의 문제 시각화

그래프 해석 가이드

X축 (0, 1, 2, 3): 발생 가능한 사건의 값입니다.
Y축 (Probability): 각 사건이 발생할 확률입니다. $X=3$일 확률이 0.5로 가장 높은 것을 확인할 수 있습니다.
빨간 점선 (E(X) = 2.125): 아까 계산한 기댓값(평균) 위치입니다. 확률이 높은 $2$와 $3$ 사이(3에 더 가까운 지점)에 평균이 형성되어 있음을 시각적으로 알 수 있습니다.
형태: 오른쪽으로 갈수록 막대가 높아지므로, 데이터가 오른쪽에 몰려 있고 왼쪽으로 꼬리가 긴 형태(음의 왜도)를 띱니다.

그래프의 특징 요약

X축 (독립변수): $0, 1, 2, 3$이라는 이산적인 값을 가집니다. 막대와 막대 사이가 떨어져 있는 것이 특징입니다.
Y축 (종속변수): 각 $X$가 발생할 확률을 나타냅니다. 모든 막대 높이의 합은 반드시 1($0.125 + 0.125 + 0.25 + 0.5$)이 됩니다.
데이터의 쏠림: 그래프를 보면 오른쪽($X=3$)으로 갈수록 확률이 높아지는 것을 볼 수 있습니다.
- 이 경우 기댓값($2.125$)은 확률이 가장 높은 $3$ 쪽으로 치우쳐서 형성됩니다.
- 왜도(Skewness): 데이터가 오른쪽에 쏠려 있고 꼬리가 왼쪽으로 길게 늘어지는 형태이므로 음(-)의 왜도를 가진다고 볼 수 있습니다.

1. 왜 모든 확률의 합은 반드시 '1'인가?

통계학에서 '1'은 '반드시 일어난다(전체)'는 것을 의미합니다.

사건의 전체 집합: $X$가 $0, 1, 2, 3$ 중 하나라는 것은, 우리가 관찰하는 세상의 모든 가능성이 이 4가지 안에 다 들어있다는 뜻입니다.
성공과 실패의 관점: 질문하신 대로 "사건 발생이 1"이라는 개념과 일맥상통합니다. 어떤 일이 일어날 확률($p$)과 일어나지 않을 확률($1-p$)을 더하면 전체인 $1$이 되는 것과 같은 원리입니다.
결론: "뭐라도 하나는 반드시 일어난다"는 논리적 완결성을 위해 전체 확률의 합은 항상 $1$이 되어야 합니다.

2. Y축(확률)이 종속변수로서 0~1 사이만 갖는 이유

이산확률분포에서 Y축인 $P(X=x)$는 다음과 같은 성질을 가집니다.

값의 범위: 확률은 아예 안 일어나거나($0$), 무조건 일어나거나($1$) 사이의 값만 가질 수 있습니다. 마이너스 확률이나 $100%$를 초과하는 확률은 존재할 수 없기 때문입니다.
시나리오 예측: 말씀하신 대로 통계는 가상 시나리오의 예측 도구입니다. 특정 사건 $X$가 발생할 가능성을 $0$에서 $1$ 사이의 수치로 계량화하여 "얼마나 믿을 수 있는가"를 판단하는 척도가 됩니다.

3. ADsP 핵심 개념 연결

이 개념은 시험의 추정과 가설검정 파트와 바로 연결됩니다.

개념	설명	관련 내용
확률질량함수	이산확률변수 $X$의 각 값에 대한 확률을 나타내는 함수 (합은 항상 $1$)	현재 풀고 계신 문제
유의확률 (P-value)	귀무가설이 맞다는 전제하에 현재 결과가 나올 확률 ($0$~$1$ 사이)	가설검정의 핵심 지표
제1종 오류 ($\alpha$)	실제 맞는데 틀렸다고 할 확률 ($0$~$1$ 사이)	오류의 크기 측정

요약하자면:

확률의 합이 1인 이유는 "모든 가능성을 다 합치면 반드시 하나의 사건은 발생한다"는 전제 때문이며, 종속변수인 확률이 0~1 사이인 이유는 발생 가능성을 수치화한 것이기 때문입니다.

'확률적 가중치'를 반영한 평균
기댓값은 '발생 가능한 모든 시나리오(미래)의 가중 평균'입니다.

'데이터자격시험 > ADsP' 카테고리의 다른 글

t-통계량, F-검정, P-value (0)	2026.05.08
공정함의 기준 최소제곱법 (0)	2026.05.08
데이터 이해 (10문항) (0)	2026.01.22
정형 데이터 & 비정형 데이터 (1)	2026.01.22
데이터베이스 활용 정의 (0)	2026.01.22

ABOUT ME

쳇!, 같이가자 쳇!, 같이가자

측정과 척도 (Measurement Scale)

2. 확률과 확률분포

이산확률분포 vs 연속확률분포

주요 이산확률분포 비교

주요 연속확률분포 비교

기댓값, 분산, 표준 편차

왜도와 첨도 (Shape of Distribution)

3. 추정과 가설검정

추정 (Estimation)

가설검정 (Hypothesis Testing)

비모수 검정 (Non-parametric Test)

그래프 해석 가이드

그래프의 특징 요약

1. 왜 모든 확률의 합은 반드시 '1'인가?

2. Y축(확률)이 종속변수로서 0~1 사이만 갖는 이유

3. ADsP 핵심 개념 연결

'데이터자격시험 > ADsP' 카테고리의 다른 글

티스토리툴바

ABOUT ME

측정과 척도 (Measurement Scale)

2. 확률과 확률분포

이산확률분포 vs 연속확률분포

주요 이산확률분포 비교

주요 연속확률분포 비교

기댓값, 분산, 표준 편차

왜도와 첨도 (Shape of Distribution)

3. 추정과 가설검정

추정 (Estimation)

가설검정 (Hypothesis Testing)

비모수 검정 (Non-parametric Test)

그래프 해석 가이드

그래프의 특징 요약

1. 왜 모든 확률의 합은 반드시 '1'인가?

2. Y축(확률)이 종속변수로서 0~1 사이만 갖는 이유

3. ADsP 핵심 개념 연결

'데이터자격시험 > ADsP' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바