ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 통계학개론
    데이터자격시험/ADsP 2026. 5. 7. 16:18
    1. 통계 개요
    표본추출방법 (Sampling)
    • 단순 랜덤 추출: 각 원소에 번호를 부여하여 무작위로 추출 (가장 기본).
    • 계통 추출: 첫 번째 원소를 무작위로 정한 뒤, 일정 간격($K$번째)으로 추출.
    • 층화 추출: 모집단을 서로 다른 이질적인 그룹(층)으로 나누고, 각 층 내에서 랜덤 추출 (그룹 내 동질, 그룹 간 이질).
    • 군집 추출: 모집단을 동질적인 그룹(군집)으로 나누고, 특정 군집을 통째로 추출 (그룹 내 이질, 그룹 간 동질).

    측정과 척도 (Measurement Scale)

    • 명목 척도: 단순히 구분(성별, 혈액형).
    • 서열(순서) 척도: 순서나 서열 존재(성적 순위, 직급).
    • 등간(구간) 척도: 속성 간의 간격이 일정함. 0이 절대적이지 않음(온도, 지수).
    • 비율 척도: 간격뿐만 아니라 비율 계산 가능. 0이 절대적 의미(없음)를 가짐(무게, 나이, 소득).

    2. 확률과 확률분포

    이산확률분포 vs 연속확률분포

    • 이산(Discrete): 셀 수 있는 값.

    베르누이(0, 1), 이항분포(n번의 베르누이), 포아송분포(특정 시간/공간 내 발생 건수), 기하분포.

    주요 이산확률분포 비교

    분포명 핵심 정의 확률 변수 (X)의 의미 실제 확률 예시
    베르누이 분포 결과가 '성공' 아니면 '실패' 두 가지인 단판 승부 성공하면 $1$, 실패하면 $0$ 동전 한 개를 던졌을 때 앞면($1$)이 나올 확률
    이항 분포 베르누이 시행을 $n$번 반복했을 때의 결과 $n$번 시행 중 성공한 횟수 자유투 성공률이 80%인 선수가 10번 던져 7번 성공할 확률
    포아송 분포 정해진 시간이나 공간 내에서 발생하는 사건 단위 시간/공간 당 사건 발생 횟수 어느 서비스 센터에 한 시간 동안 고객이 3명 방문할 확률
    기하 분포 처음으로 성공이 나올 때까지 반복 시행 첫 성공이 나타날 때까지 실패한 횟수(또는 시행 횟수) 어떤 가챠(뽑기)에서 당첨 확률이 1%일 때, 100번째에 처음 당첨될 확

    시험 대비 암기 팁 (ADsP 포인트)

    베르누이 vs 이항:단 한 번의 시행이면 베르누이.여러 번($n$) 시행해서 그중 몇 번 성공했는지 따지면 이항.

    포아송분포 키워드:문제에 '단위 시간', '단위 면적', '희귀한 사건'이라는 표현이 나오면 포아송분포일 확률이 매우 높습니다.

    기하분포 키워드:'처음으로 성공할 때까지'라는 표현이 핵심입니다. (예: 야구 선수가 몇 타석 만에 첫 안타를 치는지 등)

    • 연속(Continuous): 연속적인 실수 값.

    정규분포(가장 대표), 표준정규분포(평균 0, 분산 1), t-분포(표본 작을 때), F-분포(분산 비교), $\chi^2$(카이제곱)분포(분산 검정).

    주요 연속확률분포 비교

    분포명 핵심 정의 및 특징 주요 용도 (시험 키워드) 비고
    정규분포 평균($\mu$)과 표준편차($\sigma$)에 의해 모양이 결정되는 좌우 대칭의 종 모양 분포 자연/사회현상을 설명하는 가장 대표적인 분포 모든 통계적 추론의 기초
    표준정규분포 정규분포를 평균이 0, 표준편차가 1이 되도록 **표준화($Z$)**한 분포 서로 다른 단위의 데이터를 비교하거나 확률을 계산할 때 사용 $Z$-분포라고도 함
    t-분포 정규분포와 비슷하지만 양끝(꼬리)이 더 두꺼운 분포 표본 크기가 작을 때($n < 30$) 모평균 추정 및 검정 자유도가 커질수록 정규분포에 가까워짐
    카이제곱($\chi^2$) 분포 정규분포를 따르는 모집단에서 추출한 표본들의 분산을 설명하는 분포 분산 검정, 독립성 검정, 적합도 검정 항상 0보다 큰 값만 가짐 (오른쪽으로 꼬리가 김)
    F-분포 두 집단의 **분산 비(Ratio)**를 비교하기 위한 분포 분산 분석(ANOVA), 회귀 모델의 유의성 검정 두 개의 자유도를 가짐

     

    기댓값, 분산, 표준 편차

    • 기댓값(E(X)): 확률변수의 평균값.
    • 분산(Var(X)): 데이터가 평균에서 얼마나 떨어져 있는지(퍼짐 정도).
    • 표준 편차(SD): 분산에 루트를 씌운 값 (단위를 원래 데이터와 맞춤).

    왜도와 첨도 (Shape of Distribution)

    • 왜도(Skewness): 좌우 비대칭도.
      • 0: 좌우 대칭.
      • 양수(+): 오른쪽으로 긴 꼬리 (왼쪽에 데이터 밀집).
      • 음수(-): 왼쪽으로 긴 꼬리 (오른쪽에 데이터 밀집).
    • 첨도(Kurtosis): 뾰족한 정도.
      • 3 (또는 지수에 따라 0): 정규분포의 뾰족함.
      • 3보다 크면: 정규분포보다 더 뾰족함.

    3. 추정과 가설검정

    추정 (Estimation)

    • 점추정: 모수를 하나의 수치로 추정 (예: 표본평균).
    • 구간추정: 모수가 포함될 것으로 기대되는 구간을 추정 (신뢰구간 95%, 99% 등).

    가설검정 (Hypothesis Testing)

    • 귀무가설($H_0$): "차이가 없다, 효과가 없다" (지키고자 하는 현재 상태).
    • 대립가설($H_1$): "차이가 있다, 새로운 효과가 있다" (연구자가 증명하고 싶은 것).
    • P-value(유의확률): 귀무가설이 맞다는 전제하에 현재 데이터가 나타날 확률.
      • P-value < 유의수준(α)이면 귀무가설 기각 (=통계적으로 유의함).
    • 제1종 오류: 실제로는 귀무가설이 맞는데 기각하는 오류 (더 위험하게 간주).
    • 제2종 오류: 실제로는 대립가설이 맞는데 귀무가설을 채택하는 오류.

    비모수 검정 (Non-parametric Test)

    • 특징: 모집단의 분포를 가정하지 않음(정규성 가정이 깨질 때 사용). 양적 데이터가 아닌 순위(Rank)나 부호를 이용해 검정.
    • 주요 방법: 부호 검정, 윌콕슨 순위합 검정, 크루스칼-왈리스 검정, 런 검정(Run test) 등.

     

     

    223페이지의 문제 시각화

    그래프 해석 가이드

    • X축 (0, 1, 2, 3): 발생 가능한 사건의 값입니다.
    • Y축 (Probability): 각 사건이 발생할 확률입니다. $X=3$일 확률이 0.5로 가장 높은 것을 확인할 수 있습니다.
    • 빨간 점선 (E(X) = 2.125): 아까 계산한 기댓값(평균) 위치입니다. 확률이 높은 $2$$3$ 사이(3에 더 가까운 지점)에 평균이 형성되어 있음을 시각적으로 알 수 있습니다.
    • 형태: 오른쪽으로 갈수록 막대가 높아지므로, 데이터가 오른쪽에 몰려 있고 왼쪽으로 꼬리가 긴 형태(음의 왜도)를 띱니다.


     

    그래프의 특징 요약

    1. X축 (독립변수): $0, 1, 2, 3$이라는 이산적인 값을 가집니다. 막대와 막대 사이가 떨어져 있는 것이 특징입니다.
    2. Y축 (종속변수):$X$가 발생할 확률을 나타냅니다. 모든 막대 높이의 합은 반드시 1($0.125 + 0.125 + 0.25 + 0.5$)이 됩니다.
    3. 데이터의 쏠림: 그래프를 보면 오른쪽($X=3$)으로 갈수록 확률이 높아지는 것을 볼 수 있습니다.
      • 이 경우 기댓값($2.125$)은 확률이 가장 높은 $3$ 쪽으로 치우쳐서 형성됩니다.
      • 왜도(Skewness): 데이터가 오른쪽에 쏠려 있고 꼬리가 왼쪽으로 길게 늘어지는 형태이므로 음(-)의 왜도를 가진다고 볼 수 있습니다.

     

     

    1. 왜 모든 확률의 합은 반드시 '1'인가?

    통계학에서 '1'은 '반드시 일어난다(전체)'는 것을 의미합니다.

    • 사건의 전체 집합: $X$$0, 1, 2, 3$ 중 하나라는 것은, 우리가 관찰하는 세상의 모든 가능성이 이 4가지 안에 다 들어있다는 뜻입니다.
    • 성공과 실패의 관점: 질문하신 대로 "사건 발생이 1"이라는 개념과 일맥상통합니다. 어떤 일이 일어날 확률($p$)과 일어나지 않을 확률($1-p$)을 더하면 전체인 $1$이 되는 것과 같은 원리입니다.
    • 결론: "뭐라도 하나는 반드시 일어난다"는 논리적 완결성을 위해 전체 확률의 합은 항상 $1$이 되어야 합니다.

    2. Y축(확률)이 종속변수로서 0~1 사이만 갖는 이유

    이산확률분포에서 Y축인 $P(X=x)$는 다음과 같은 성질을 가집니다.

    • 값의 범위: 확률은 아예 안 일어나거나($0$), 무조건 일어나거나($1$) 사이의 값만 가질 수 있습니다. 마이너스 확률이나 $100%$를 초과하는 확률은 존재할 수 없기 때문입니다.
    • 시나리오 예측: 말씀하신 대로 통계는 가상 시나리오의 예측 도구입니다. 특정 사건 $X$가 발생할 가능성을 $0$에서 $1$ 사이의 수치로 계량화하여 "얼마나 믿을 수 있는가"를 판단하는 척도가 됩니다.

    3. ADsP 핵심 개념 연결

    이 개념은 시험의 추정과 가설검정 파트와 바로 연결됩니다.

    개념 설명 관련 내용
    확률질량함수 이산확률변수 $X$의 각 값에 대한 확률을 나타내는 함수 (합은 항상 $1$) 현재 풀고 계신 문제
    유의확률 (P-value) 귀무가설이 맞다는 전제하에 현재 결과가 나올 확률 ($0$~$1$ 사이) 가설검정의 핵심 지표
    제1종 오류 ($\alpha$) 실제 맞는데 틀렸다고 할 확률 ($0$~$1$ 사이) 오류의 크기 측정

    요약하자면:

    확률의 합이 1인 이유는 "모든 가능성을 다 합치면 반드시 하나의 사건은 발생한다"는 전제 때문이며, 종속변수인 확률이 0~1 사이인 이유는 발생 가능성을 수치화한 것이기 때문입니다.

     

    '확률적 가중치'를 반영한 평균 
    기댓값은 '발생 가능한 모든 시나리오(미래)의 가중 평균'입니다.

     

    •  

     

    '데이터자격시험 > ADsP' 카테고리의 다른 글

    t-통계량, F-검정, P-value  (0) 2026.05.08
    공정함의 기준 최소제곱법  (0) 2026.05.08
    데이터 이해 (10문항)  (0) 2026.01.22
    정형 데이터 & 비정형 데이터  (1) 2026.01.22
    데이터베이스 활용 정의  (0) 2026.01.22
Designed by Tistory.