결측자료의 처리
자료의 결측이 많다면 왜 결측값이 발생했는지 검토해야 한다
완전 무작위 결측 MCAR |
무작위 결측 MAR |
비무작위 결측 MNAR |
결측 값들이 데이터 전반에 걸쳐 완전히 무작위로 분포하고 결측값 발생 원인이 연구 변수들과 관련이 없는 경우 | 결측값 발생원인이 해당 변수와는 무관하지만 조사된 다른 변수로 완전히 설명될 수 있는 경우 | 특정 변수의 자료가 결측될 가능성이 해당 변수와 밀접하게 관련이 있는 경우 |
편향될 가능성이 낮다 | 편향될 가능성이 높다 |
자료 결측의 패턴이 비무작위 결측이 아니라는 조건하에서, 결측 자료를 추정(impute) 할 수 있다
단순 대체 해당 변수들에서 관찰된 평균, 가장 마지막에 관찰된 값 등으로 대체
다중 대체 대체 자료들 여러 세트 생성 후 이들 중 일부를 포함하여 각각 통계 분석, 이후 분석결과들을 결합
이상 값 (outlier)
이상값이란 자료 내 대부분의 값들과 차별화되고 서로 병립할 수 없는 값을 말한다
실제 관찰값일 수도 있지만, 잘못 입력되었거나 잘못된 단위를 사용해서 입력된 자료일 수 있다
직접 값을 검토하거나, 히스토그램이나 산점도 등을 활용하여 구별한다
회귀분석으로 판단할 수도 있다
이상값의 처리
민감도 분석
이상값으로 의심되는 값들을 제외하고 분석해보고, 또 포함시켜서 분석해보는 방법
> 두 분석 결과가 비슷하다면 해당 이상값은 결과에 큰 영향을 주지 않는다고 간주할 수 있다
> 두 분석 결과가 매우 다르다면 이상값 존재 여부에 큰 영향을 받지 않는 다른 통계분석 방법을 사용하여 자료를 분석해봐야 한다 (비모수적검정, 자료의 변환)
ref.
https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=273788798
한눈에 알 수 있는 보건.의학 통계학
책 한 권 내에 어떤 상황에서는 어떤 통계분석을 실시해야 하는지, 또 어떻게 분석을 실시하며, 분석결과는 어떻게 해석하는지 등 실질적으로 필요한 내용들을 충분히 제공하기가 결코 쉽지는
www.aladin.co.kr
'보건 의학 통계학' 카테고리의 다른 글
역학 - 용어 정리 (0) | 2021.08.11 |
---|---|
자료의 변환 (0) | 2021.08.11 |
이론적 분포들 - 정규, 기타 분포 (0) | 2021.08.11 |
자료의 기술 - 평균적인 값, 흩어진 정도 (0) | 2021.08.09 |
자료의 종류 / 자료 입력 (0) | 2021.08.09 |
댓글