본문 바로가기
보건 의학 통계학

오류 검토와 이상 값

by ARNI 2021. 8. 9.

결측자료의 처리

자료의 결측이 많다면 왜 결측값이 발생했는지 검토해야 한다

완전 무작위 결측
MCAR
무작위 결측
MAR
비무작위 결측
MNAR
결측 값들이 데이터 전반에 걸쳐 완전히 무작위로 분포하고 결측값 발생 원인이 연구 변수들과 관련이 없는 경우 결측값 발생원인이 해당 변수와는 무관하지만 조사된 다른 변수로 완전히 설명될 수 있는 경우 특정 변수의 자료가 결측될 가능성이 해당 변수와 밀접하게 관련이 있는 경우

편향될 가능성이 낮다   편향될 가능성이 높다

자료 결측의 패턴이 비무작위 결측이 아니라는 조건하에서, 결측 자료를 추정(impute) 할 수 있다
단순 대체 해당 변수들에서 관찰된 평균, 가장 마지막에 관찰된 값 등으로 대체
다중 대체 대체 자료들 여러 세트 생성 후 이들 중 일부를 포함하여 각각 통계 분석, 이후 분석결과들을 결합


이상 값 (outlier)

이상값이란 자료 내 대부분의 값들과 차별화되고 서로 병립할 수 없는 값을 말한다
실제 관찰값일 수도 있지만, 잘못 입력되었거나 잘못된 단위를 사용해서 입력된 자료일 수 있다

직접 값을 검토하거나, 히스토그램이나 산점도 등을 활용하여 구별한다
회귀분석으로 판단할 수도 있다

이상값의 처리

민감도 분석
이상값으로 의심되는 값들을 제외하고 분석해보고, 또 포함시켜서 분석해보는 방법
> 두 분석 결과가 비슷하다면 해당 이상값은 결과에 큰 영향을 주지 않는다고 간주할 수 있다
> 두 분석 결과가 매우 다르다면 이상값 존재 여부에 큰 영향을 받지 않는 다른 통계분석 방법을 사용하여 자료를 분석해봐야 한다 (비모수적검정, 자료의 변환)

 

ref.

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=273788798

 

한눈에 알 수 있는 보건.의학 통계학

책 한 권 내에 어떤 상황에서는 어떤 통계분석을 실시해야 하는지, 또 어떻게 분석을 실시하며, 분석결과는 어떻게 해석하는지 등 실질적으로 필요한 내용들을 충분히 제공하기가 결코 쉽지는

www.aladin.co.kr

 

'보건 의학 통계학' 카테고리의 다른 글

역학 - 용어 정리  (0) 2021.08.11
자료의 변환  (0) 2021.08.11
이론적 분포들 - 정규, 기타 분포  (0) 2021.08.11
자료의 기술 - 평균적인 값, 흩어진 정도  (0) 2021.08.09
자료의 종류 / 자료 입력  (0) 2021.08.09

댓글