'ComputerScience/빅데이터분석기사' 카테고리의 글 목록

ComputerScience/빅데이터분석기사

[빅데이터분석기사] 실기 작업 3유형 t-test 연습문제 풀이

꾸준한인사이트 2024. 6. 16. 16:42

2024. 6. 16. 16:42

빅데이터분석기사를 준비하면서, 새로워진 작업 3 유형의 t-test를 연습해보고자하였다.

작업 3유형을 공부한다면, 아래 데이터와 문제를 활용해서 한번 연습해보는 것을 추천한다.

기사를 공부하는 이들에게 도움이 되고자 작성한다. 아래는 예제와 풀이이다.

데이터 다운로드

blood_pressure.csv

0.00MB

문제

주어진 데이터(data/blood_pressure.csv)에 고혈압 환자 120명의 치료 전후의 혈압이 저장되어 있다.
해당 치료가 효과가 있는지 (즉, 치료 후의 혈압이 감소했는지) 쌍체표본 t-검정(paried t-test)를 통해 답하고자 한다.

가설은 아래와 같다.
Ud (치료 후 혈압 – 치료 전 혈압)의 평균
H0 : Ud >=0
H1 : Ud < 0

bp_before : 치료전 혈압
bp_after : 치료 후 혈압

1) Ud의 표본 평균을 입력하시오. (반올림하여 소수점 둘째자리까지 계산)
2) 위의 가설을 검정하기 위한 검정통계량을 입력하시오. (반올림하여 소수 넷째자리까지 계산)
3) 위의 통계량에 대한 p-값을 구하여 입력하시오.(반올림하여 소수 넷째자리까지 계산)
4) 유의수준 0.05 하에서 가설검정의 결과를 (채택/기각) 중 하나를 선택하여 입력하시오.

풀이 방향

0) 귀무가설에서 확인해야할 점을 문제에 표시함

1) 가설 검정이에서 쌍체 표본 t-검정이 나오면 scipy.stats 내에있는 ttest_rel 함수로 풀수 있음

2) 귀무가설의 부호 방향을 확인할 것 : Ud가 0 이상이므로 좌측 검정을 실시해야함, 귀무가설의 부호로부터 검정방향을 확인할 수 있음, alternative='less'

3) 데이터 입력 순서 : 귀무가설 Ud >=0 이라는 것은 bp_after >= be_before 를 검정하는 것과 동일함

ttest_rel(bp_after,bp_before) 좌항부터 순차적으로 넣어줄 것

코드

import pandas as pd
import numpy as np
import scipy.stats as stats

df = pd.read_csv('data/blood_pressure.csv', index_col = 0)
# 데이터 정보 확인
print(df.info())

# 1. Ud 표본 평균 입력
d = df['bp_after']-df['bp_before']
ud = d.mean(axis=0)
ud = np.round(ud,2)
print(f"1) Ud의 표본 평균 : {ud}")

# 2. 검정통계량 계산
## 확인 필수! 귀무가설을 기준으로 결정하면됨, 귀무가설 부등호가 이상인 경우 좌측 검정
# alternative 'less' : 좌측검정
# alternative 'greatest' :우측검정
# alternative 'two-sided' : 양쪽검정

## 3. 쌍측 t-검정 : 두 집단이 변화하였는지
tstat, pval = stats.ttest_rel(df['bp_after'],df['bp_before'],alternative='less')
# 만약에 오류가 날 경우, 받아오는 변수 값이 4개인지 확인해보자. scipy 버전에 따라 상이함
# tstat, pval, _, _ = stats.ttest_rel(df['bp_after'],df['bp_before'],alternative='less')

tstat = np.round(tstat,4)
print(f"2) 검정통계량 : {tstat}")
pval = np.round(pval,4)
print(f"3) P-val : {pval}")

## 4. 가설검정
alpha = 0.05 #유의수준
if pval >=alpha :
	print("4) H0 Accepted - 귀무가설 채택")
else :
	print("4) H0 Reject - 귀무가설 기각")

답안)

1) Ud의 표본 평균 : -5.09
2) 검정통계량 : -3.3372
3) P-val : 0.0006
H0 Reject - 귀무가설 기각

'ComputerScience > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사] 정량적 데이터 vs 정성적 데이터 (0)	2022.01.24

[빅데이터분석기사] 정량적 데이터 vs 정성적 데이터

꾸준한인사이트 2022. 1. 24. 21:43

2022. 1. 24. 21:43

문제

아래는 (가)라는 데이터의 유형을 설명한 것이다. 데이터 (가)는 무엇인가?

(가) 데이터는 지역별 매출액, 영업이익률, 판매량과 같이 수치로 명확하게 표현되는 데이터로, 그 양이 크게 증가하더라도 이를 DBMS에 저장, 검색, 분석하여 활용하기가 용이하다.

(1) 정량적 데이터

(2) 정성적 데이터

풀이

1) 정량적 데이터 : 주로 숫자로 이루어진 데이터

2) 정성적 데이터 : 문자와 같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터

	정량적 데이터 (Quantitiative Data)	정성적 데이터 (Qualitive Data)
유형	정형 데이터 반정형 데이터	비정형 데이터
특징 및 관점	여로 요소의 결합으로 의미 부여 주로 객관적 내용	객체 하나가 함축된 의미 내포 주로 주관적 내
구성 및 형태	수치나 기호 데이터베이스, 스프레드 시트	문자나 언어 웹 로그, 텍스트파일
위치	DBMS, 로컬 시스템 내부	웹사이트, 모바일 플랫폼 등 외부
분석	통계 분석 시 용이	통계 분석 시 어려움

'ComputerScience > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사] 실기 작업 3유형 t-test 연습문제 풀이 (0)	2024.06.16

PREV 이전 1 NEXT 다음

StaySteady