-
통계학개론데이터자격시험/ADsP 2026. 5. 7. 16:18
1. 통계 개요
표본추출방법 (Sampling)
- 단순 랜덤 추출: 각 원소에 번호를 부여하여 무작위로 추출 (가장 기본).
- 계통 추출: 첫 번째 원소를 무작위로 정한 뒤, 일정 간격($K$번째)으로 추출.
- 층화 추출: 모집단을 서로 다른 이질적인 그룹(층)으로 나누고, 각 층 내에서 랜덤 추출 (그룹 내 동질, 그룹 간 이질).
- 군집 추출: 모집단을 동질적인 그룹(군집)으로 나누고, 특정 군집을 통째로 추출 (그룹 내 이질, 그룹 간 동질).
측정과 척도 (Measurement Scale)
- 명목 척도: 단순히 구분(성별, 혈액형).
- 서열(순서) 척도: 순서나 서열 존재(성적 순위, 직급).
- 등간(구간) 척도: 속성 간의 간격이 일정함. 0이 절대적이지 않음(온도, 지수).
- 비율 척도: 간격뿐만 아니라 비율 계산 가능. 0이 절대적 의미(없음)를 가짐(무게, 나이, 소득).
2. 확률과 확률분포
이산확률분포 vs 연속확률분포
- 이산(Discrete): 셀 수 있는 값.
베르누이(0, 1), 이항분포(n번의 베르누이), 포아송분포(특정 시간/공간 내 발생 건수), 기하분포.
주요 이산확률분포 비교
분포명 핵심 정의 확률 변수 (X)의 의미 실제 확률 예시 베르누이 분포 결과가 '성공' 아니면 '실패' 두 가지인 단판 승부 성공하면 $1$, 실패하면 $0$ 동전 한 개를 던졌을 때 앞면($1$)이 나올 확률 이항 분포 베르누이 시행을 $n$번 반복했을 때의 결과 $n$번 시행 중 성공한 횟수 자유투 성공률이 80%인 선수가 10번 던져 7번 성공할 확률 포아송 분포 정해진 시간이나 공간 내에서 발생하는 사건 단위 시간/공간 당 사건 발생 횟수 어느 서비스 센터에 한 시간 동안 고객이 3명 방문할 확률 기하 분포 처음으로 성공이 나올 때까지 반복 시행 첫 성공이 나타날 때까지 실패한 횟수(또는 시행 횟수) 어떤 가챠(뽑기)에서 당첨 확률이 1%일 때, 100번째에 처음 당첨될 확
시험 대비 암기 팁 (ADsP 포인트)
베르누이 vs 이항:단 한 번의 시행이면 베르누이.여러 번($n$) 시행해서 그중 몇 번 성공했는지 따지면 이항.
포아송분포 키워드:문제에 '단위 시간', '단위 면적', '희귀한 사건'이라는 표현이 나오면 포아송분포일 확률이 매우 높습니다.
기하분포 키워드:'처음으로 성공할 때까지'라는 표현이 핵심입니다. (예: 야구 선수가 몇 타석 만에 첫 안타를 치는지 등)- 연속(Continuous): 연속적인 실수 값.
정규분포(가장 대표), 표준정규분포(평균 0, 분산 1), t-분포(표본 작을 때), F-분포(분산 비교), $\chi^2$(카이제곱)분포(분산 검정).
주요 연속확률분포 비교
분포명 핵심 정의 및 특징 주요 용도 (시험 키워드) 비고 정규분포 평균($\mu$)과 표준편차($\sigma$)에 의해 모양이 결정되는 좌우 대칭의 종 모양 분포 자연/사회현상을 설명하는 가장 대표적인 분포 모든 통계적 추론의 기초 표준정규분포 정규분포를 평균이 0, 표준편차가 1이 되도록 **표준화($Z$)**한 분포 서로 다른 단위의 데이터를 비교하거나 확률을 계산할 때 사용 $Z$-분포라고도 함 t-분포 정규분포와 비슷하지만 양끝(꼬리)이 더 두꺼운 분포 표본 크기가 작을 때($n < 30$) 모평균 추정 및 검정 자유도가 커질수록 정규분포에 가까워짐 카이제곱($\chi^2$) 분포 정규분포를 따르는 모집단에서 추출한 표본들의 분산을 설명하는 분포 분산 검정, 독립성 검정, 적합도 검정 항상 0보다 큰 값만 가짐 (오른쪽으로 꼬리가 김) F-분포 두 집단의 **분산 비(Ratio)**를 비교하기 위한 분포 분산 분석(ANOVA), 회귀 모델의 유의성 검정 두 개의 자유도를 가짐 기댓값, 분산, 표준 편차
- 기댓값(E(X)): 확률변수의 평균값.
- 분산(Var(X)): 데이터가 평균에서 얼마나 떨어져 있는지(퍼짐 정도).
- 표준 편차(SD): 분산에 루트를 씌운 값 (단위를 원래 데이터와 맞춤).
왜도와 첨도 (Shape of Distribution)
- 왜도(Skewness): 좌우 비대칭도.
- 0: 좌우 대칭.
- 양수(+): 오른쪽으로 긴 꼬리 (왼쪽에 데이터 밀집).
- 음수(-): 왼쪽으로 긴 꼬리 (오른쪽에 데이터 밀집).
- 첨도(Kurtosis): 뾰족한 정도.
- 3 (또는 지수에 따라 0): 정규분포의 뾰족함.
- 3보다 크면: 정규분포보다 더 뾰족함.
3. 추정과 가설검정
추정 (Estimation)
- 점추정: 모수를 하나의 수치로 추정 (예: 표본평균).
- 구간추정: 모수가 포함될 것으로 기대되는 구간을 추정 (신뢰구간 95%, 99% 등).
가설검정 (Hypothesis Testing)
- 귀무가설($H_0$): "차이가 없다, 효과가 없다" (지키고자 하는 현재 상태).
- 대립가설($H_1$): "차이가 있다, 새로운 효과가 있다" (연구자가 증명하고 싶은 것).
- P-value(유의확률): 귀무가설이 맞다는 전제하에 현재 데이터가 나타날 확률.
- P-value < 유의수준(α)이면 귀무가설 기각 (=통계적으로 유의함).
- 제1종 오류: 실제로는 귀무가설이 맞는데 기각하는 오류 (더 위험하게 간주).
- 제2종 오류: 실제로는 대립가설이 맞는데 귀무가설을 채택하는 오류.
비모수 검정 (Non-parametric Test)
- 특징: 모집단의 분포를 가정하지 않음(정규성 가정이 깨질 때 사용). 양적 데이터가 아닌 순위(Rank)나 부호를 이용해 검정.
- 주요 방법: 부호 검정, 윌콕슨 순위합 검정, 크루스칼-왈리스 검정, 런 검정(Run test) 등.
223페이지의 문제 시각화

그래프 해석 가이드
- X축 (0, 1, 2, 3): 발생 가능한 사건의 값입니다.
- Y축 (Probability): 각 사건이 발생할 확률입니다. $X=3$일 확률이 0.5로 가장 높은 것을 확인할 수 있습니다.
- 빨간 점선 (E(X) = 2.125): 아까 계산한 기댓값(평균) 위치입니다. 확률이 높은 $2$와 $3$ 사이(3에 더 가까운 지점)에 평균이 형성되어 있음을 시각적으로 알 수 있습니다.
- 형태: 오른쪽으로 갈수록 막대가 높아지므로, 데이터가 오른쪽에 몰려 있고 왼쪽으로 꼬리가 긴 형태(음의 왜도)를 띱니다.
그래프의 특징 요약
- X축 (독립변수): $0, 1, 2, 3$이라는 이산적인 값을 가집니다. 막대와 막대 사이가 떨어져 있는 것이 특징입니다.
- Y축 (종속변수): 각 $X$가 발생할 확률을 나타냅니다. 모든 막대 높이의 합은 반드시 1($0.125 + 0.125 + 0.25 + 0.5$)이 됩니다.
- 데이터의 쏠림: 그래프를 보면 오른쪽($X=3$)으로 갈수록 확률이 높아지는 것을 볼 수 있습니다.
- 이 경우 기댓값($2.125$)은 확률이 가장 높은 $3$ 쪽으로 치우쳐서 형성됩니다.
- 왜도(Skewness): 데이터가 오른쪽에 쏠려 있고 꼬리가 왼쪽으로 길게 늘어지는 형태이므로 음(-)의 왜도를 가진다고 볼 수 있습니다.
1. 왜 모든 확률의 합은 반드시 '1'인가?
통계학에서 '1'은 '반드시 일어난다(전체)'는 것을 의미합니다.
- 사건의 전체 집합: $X$가 $0, 1, 2, 3$ 중 하나라는 것은, 우리가 관찰하는 세상의 모든 가능성이 이 4가지 안에 다 들어있다는 뜻입니다.
- 성공과 실패의 관점: 질문하신 대로 "사건 발생이 1"이라는 개념과 일맥상통합니다. 어떤 일이 일어날 확률($p$)과 일어나지 않을 확률($1-p$)을 더하면 전체인 $1$이 되는 것과 같은 원리입니다.
- 결론: "뭐라도 하나는 반드시 일어난다"는 논리적 완결성을 위해 전체 확률의 합은 항상 $1$이 되어야 합니다.
2. Y축(확률)이 종속변수로서 0~1 사이만 갖는 이유
이산확률분포에서 Y축인 $P(X=x)$는 다음과 같은 성질을 가집니다.
- 값의 범위: 확률은 아예 안 일어나거나($0$), 무조건 일어나거나($1$) 사이의 값만 가질 수 있습니다. 마이너스 확률이나 $100%$를 초과하는 확률은 존재할 수 없기 때문입니다.
- 시나리오 예측: 말씀하신 대로 통계는 가상 시나리오의 예측 도구입니다. 특정 사건 $X$가 발생할 가능성을 $0$에서 $1$ 사이의 수치로 계량화하여 "얼마나 믿을 수 있는가"를 판단하는 척도가 됩니다.
3. ADsP 핵심 개념 연결
이 개념은 시험의 추정과 가설검정 파트와 바로 연결됩니다.
개념 설명 관련 내용 확률질량함수 이산확률변수 $X$의 각 값에 대한 확률을 나타내는 함수 (합은 항상 $1$) 현재 풀고 계신 문제 유의확률 (P-value) 귀무가설이 맞다는 전제하에 현재 결과가 나올 확률 ($0$~$1$ 사이) 가설검정의 핵심 지표 제1종 오류 ($\alpha$) 실제 맞는데 틀렸다고 할 확률 ($0$~$1$ 사이) 오류의 크기 측정 요약하자면:
확률의 합이 1인 이유는 "모든 가능성을 다 합치면 반드시 하나의 사건은 발생한다"는 전제 때문이며, 종속변수인 확률이 0~1 사이인 이유는 발생 가능성을 수치화한 것이기 때문입니다.
'확률적 가중치'를 반영한 평균
기댓값은 '발생 가능한 모든 시나리오(미래)의 가중 평균'입니다.
'데이터자격시험 > ADsP' 카테고리의 다른 글
t-통계량, F-검정, P-value (0) 2026.05.08 공정함의 기준 최소제곱법 (0) 2026.05.08 데이터 이해 (10문항) (0) 2026.01.22 정형 데이터 & 비정형 데이터 (1) 2026.01.22 데이터베이스 활용 정의 (0) 2026.01.22