자료는 보통 하나 이상의 변수들에 대한 관찰값으로 구성되어 있다
변수란 어떤 변화하는 양을 말한다
일반적으로 자료는 관심대상인 모집단을 대표하는 표본으로 부터 얻어지며 자료의 크기를 의미있는 형태로 압축하고, 이로부터 쓸만한 정보를 추출하는것이 통계학의 목적이다
자료의 형태는 다양하며 어떤 통계분석방법을 사용해 자료를 분석하는 것이 적절할지 판단하기 위해서는 각 변수가 가지는 자료의 형태를 파악해야 한다
범주형(질적) 자료
각 개인이 서로 구분되는, 여러개의 범주들로 구성된 질적 변수의 한 범주에만 속할때, 이를 범주형 자료라 한다
이때, 각 범주들 간의 순서의 의미가 없으면 명목형 자료(nominal data), 어떤 방식이든 순서가 매겨지면 순서형 자료(ordinal data)라고 한다
ex) 혈액형, 결혼상태 > 명목형 자료
병기, 통증강도 > 순서형 자료
*범주가 두개로 구성된 범주형 변수의 경우 이진수 혹은 이분형 변수라 한다
수치형(양적) 자료
어떤 수치 값들을 가지는 양적변수의 자료를 수치형 자료라 한다
이때, 변수의 값들이 정수로만 제한되는 경우 이산형 자료(discrete data), 측정도구로 인한 제약외에는 변수가 취하는 값에 제한이 없는 경우에는 연속형 자료(continuous data)라고 한다
ex) 발생한 횟수 등의 계수 자료 > 이산형 자료
키, 몸무게 > 연속형 자료
대부분의 경우 범주형 자료와 수치형 자료는 명확히 구분되지만, 가끔 구분이 모호한 경우도 있다
수치형 자료를 범주형 자료로 기록하는 경우 중요한 정보가 손실되므로, 일단 수치형으로 기록해두고 차후 필요한 경우 범주형으로 전환하는게 적절하다
유도된 자료 : 모두 수치형 변수로 간주
- 백분율, 비, 율
백분율, 비율 (proportion) | 비 (ratio) | 율 (rate) |
분자와 분모의 측정값 단위가 동일한 경우 | 분자와 분모의 측정값 단위가 서로 다른 경우 | |
분자의 값이 분모에 포함되는 경우 | 분자와 분모가 서로 독립적인 경우 | |
발생할 확률(probability), 위험(risk) |
오즈(odds), 오즈비(odds ratio), 위험비(risk ratio) |
발생률(incidence rate), 사망률(mortality rate) |
- 점수
변수의 실제 크기를 측정할 수 없을때, 점수라 부르는 인위적인 값을 정의해서 사용한다
중도절단(censored) 자료
- 측정도구를 사용할때, 특정 기준점 이상/이하의 값들만 탐지 가능하다면 해당 값 이하/이상의 점들은 측정할 수 없다
(탐지불가, 정량화 불가)
- 임상시험에서 환자 추적시 연구가 종료되기 전에 해당 임상시험에서 탈락하면 측정할 수 없다
ref.
https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=273788798
한눈에 알 수 있는 보건.의학 통계학
책 한 권 내에 어떤 상황에서는 어떤 통계분석을 실시해야 하는지, 또 어떻게 분석을 실시하며, 분석결과는 어떻게 해석하는지 등 실질적으로 필요한 내용들을 충분히 제공하기가 결코 쉽지는
www.aladin.co.kr
'보건 의학 통계학' 카테고리의 다른 글
역학 - 용어 정리 (0) | 2021.08.11 |
---|---|
자료의 변환 (0) | 2021.08.11 |
이론적 분포들 - 정규, 기타 분포 (0) | 2021.08.11 |
자료의 기술 - 평균적인 값, 흩어진 정도 (0) | 2021.08.09 |
오류 검토와 이상 값 (0) | 2021.08.09 |
댓글