혼동되는 통계 용어 # 1 : 독립 변수의 여러 이름

일반 선형 모델 (선형 회귀, ANOVA, MANOVA), 선형 혼합 모델 및 일반화 된 선형 모델 (로지스틱, 포아송, 회귀 등) 모두 동일한 일반 형태를가집니다.

방정식의 왼쪽에는 하나 이상의 응답 변수 Y가 있습니다. 오른쪽에는 하나 이상의 예측 변수 X가 있습니다. , 및 계수, B. 오른쪽에있는 변수는 다양한 형태를 가질 수 있으며 여러 이름으로 불립니다.

이러한 이름의 의미에는 미묘한 차이가 있습니다. 하지만 불행히도 필요한 것보다 더 혼란스럽게 만드는 두 가지 관행이 있습니다.

첫째, 종종 같은 의미로 사용됩니다. 따라서 누군가는 “예측 변수”와 “독립 변수”를 같은 의미로 사용하고 다른 사람은 사용하지 않을 수 있습니다. 따라서 청취자는 화자가 암시하지 않을 수있는 미묘한 차이를 읽을 수 있습니다.

둘째, 동일한 용어가 다른 분야 또는 연구 상황에서 다르게 사용됩니다. 따라서 대부분 관찰 된 변수에 대한 연구를 수행하는 역학자라면 실험 연구를 수행하는 심리학자보다이 용어 중 일부에 대해 약간 다른 의미로 훈련을 받았을 것입니다.

더 나쁜 것은 통계 소프트웨어 패키지는 자체 절차 간에도 유사한 개념에 대해 다른 이름을 사용합니다. 이러한 정확성 추구는 종종 혼란을 야기합니다. (단어를 바꾸지 않으면 충분히 어렵습니다!).

다음은 다른 변수에 영향을 미치거나 예측하도록 제안 된 모델의 변수를 모두 나타내는 몇 가지 일반적인 용어입니다.

I 다른 정의와 시사점을 알려 드리지만 일부 누락되었을 가능성이 큽니다. 이해하는 것과 다른 의미의 용어를 발견하면 주석에 추가하십시오. 그리고 주로 어떤 분야에서 일하고 있는지 알려주세요.

예측 변수, 예측 변수

이것은 가장 일반적인 용어입니다. 조작, 관찰, 범주 또는 수치에 대한 의미는 없습니다. 인과 관계를 의미하지는 않습니다.

예측 변수는 단순히 반응 변수의 값을 설명하거나 예측하는 데 사용됩니다. 주로 회귀에서 사용됩니다.

독립 변수

독립 변수 (IV)가 다른 방식을 사용하는 것을 보았습니다.

1. 인과 관계를 의미합니다. 독립 변수는 종속 변수에 영향을줍니다. 이 사용법은 실험자가 독립 변수를 조작하는 ANOVA 모델에서 주로 사용됩니다. 조작 된 경우 일반적으로 범주 형이며 주제는 조건에 무작위로 할당됩니다.

2. 인과 관계를 의미하지는 않지만 연구 질문에 답하기위한 주요 예측 변수입니다. 즉, 연구자가 종속 변수와의 관계를 이해하는 데 관심이 있기 때문에 모델에 있습니다. 즉, 제어 변수가 아닙니다.

3. 연구 질문에 대한 인과 관계 나 변수의 중요성을 암시하지 않습니다. 하지만 다른 모든 예측 변수와는 상관이 없습니다 (독립적).

솔직히 저는 최근에 누군가가 독립 변수라는 용어를 이렇게 정의하는 것을 봤습니다. 예측 변수는 상관 관계가있는 경우 독립 변수가 될 수 없습니다. 놀랐지 만 어떤 사람들이이 용어를 사용할 때 이것을 의미한다는 것을 아는 것이 좋습니다.

설명 변수

요점이 예측하지 않는 모델의 예측 변수 반응 변수이지만 X와 Y 사이의 관계를 설명하기위한 것입니다.

통제 변수

종속 변수와 관련이 있거나 영향을 미칠 수 있지만 실제로는 관심이없는 예측 변수 연구 질문입니다.

공변량

일반적으로 연속 예측 변수입니다. ANCOVA (공분산 분석) 및 회귀 모두에 사용됩니다. 어떤 사람들은 이것을 회귀에서 모든 예측 변수를 참조하는 데 사용하지만 실제로는 연속 예측 변수를 의미합니다. ANOVA (분산 분석)에 공변량을 추가하면 ANCOVA (공분산 분석)로 바뀝니다.

때때로 공변량은 변수가 독립 변수와 반대되는 제어 변수임을 의미하지만 항상 그런 것은 아닙니다.

때때로 사람들은 공변량을 사용하여 수치 적이든 범주 형이든 제어 변수를 의미합니다.

이것은 너무나 혼란스러워서 자체적으로 혼동되는 통계 용어 기사가 있습니다.

Confounding Variable, Confounder

이러한 용어는 다른 분야에서 다르게 사용됩니다. 실험 설계에서는 효과를 독립 변수의 효과와 구분할 수없는 변수를 의미하는 데 사용됩니다.

관측 영역에서는 두 상황 중 하나를 의미하는 데 사용됩니다. 첫 번째는 독립 변수와 상관 관계가 너무 높아 반응 변수에 미치는 영향을 구분하기 어려운 변수입니다. 두 번째는 반응에 대한 독립 변수의 영향을 유발하는 변수입니다.

이러한 해석의 차이는 미미하지만 중요합니다.

노출 변수

이것은 일부 분야, 특히 역학에서 독립 변수를 가리키는 용어입니다. 주요 예측 변수입니다.

위험 요인

예측 변수에 대한 또 다른 역학 용어입니다. 아래 나열된 “요인”이라는 용어와는 달리 범주 형 변수를 의미하지 않습니다.

요인

범주 형 예측 변수입니다. 원인 / 결과 관계를 나타낼 수도 있고 나타내지 않을 수도 있습니다. 반응 변수 (분석이 아닌 연구 설계에 따라 다름)

분산 분석의 독립 변수는 거의 항상 요인이라고합니다. 회귀에서는 종종 지표 변수, 범주 형 예측 변수 또는 더미 변수라고합니다. . 그것들은이 맥락에서 모두 똑같습니다.

또한, Factor는 통계에서 완전히 다른 의미를 가지고 있다는 점에 유의하십시오. 따라서 그 자체로 혼동되는 통계 용어 기사가 있습니다.

특징

머신 러닝 및 예측 모델에서 사용되는 이것은 단순히 예측 변수입니다.

그룹화 변수

요인과 동일합니다.

고정 요인

범주의 특정 값이 의도적이고 중요하며 종종 실험자가 선택하는 범주 형 예측 변수입니다. 정신적 치료 또는 성별 및 인종과 같은 인구 통계 학적 범주.

혼합 모델을 사용하지 않는 경우 (그렇다면 알고 있어야 함) 모든 요인은 고정 된 요인입니다. 고정 및 랜덤 요인에 대한 자세한 설명은 혼합 또는 다단계 모델에서 고정 및 랜덤 요인 지정을 참조하십시오.

랜덤 요인

특정 값이 다음과 같은 범주 형 예측 변수 카테고리는 무작위로 할당되었습니다. 일반적으로 혼합 모델링에 사용됩니다. 예를 들면 주제 또는 랜덤 블록이 포함됩니다.

고정 및 랜덤 요인에 대한 자세한 설명은 혼합 또는 다중 수준 모델에서 고정 및 랜덤 요인 지정을 참조하십시오.

차단 변수

이 용어는 일반적으로 실험 설계에 사용되지만 무작위 대조 시험에서도 사용되었습니다.

차단 변수는 실험 블록을 나타내는 변수입니다. 클러스터 또는 실험 단위 완전한 무작위 화를 제한하고 종종 블록 구성원간에 유사한 응답 값을 생성합니다.

차단 변수는 고정 또는 무작위 요인 일 수 있습니다. 연속적이지 않습니다.

더미 변수

더미 코딩 된 범주 형 변수입니다. 더미 코딩 (지표 코딩이라고도 함)은 일반적으로 회귀 모델에 사용되지만 ANOVA는 사용되지 않습니다. 더미 변수는 0과 1의 두 가지 값만 가질 수 있습니다. 범주 형 변수에 두 개 이상의 값이 있으면 여러 더미 변수로 다시 코딩됩니다.

인디케이터 변수

더미와 동일 변수.

취소 메시지

보고서, 기사 또는 대화에서 기술 용어를 사용할 때마다 항상 용어를 정의하는 것이 좋습니다. 이것은 통계에서 특히 중요합니다. 많은 분야에서 사용되며 각 분야에서 용어에 고유 한 미묘함을 추가합니다.

통계 용어 혼동 시리즈

통계 용어 혼동 # 1 : 독립 변수의 여러 이름

혼란 통계 용어 # 2 : 알파 및 베타

혼란 통계 용어 # 4 : 계층 적 회귀 vs. 계층 적 모델

선형 회귀 계수 해석 : 출력 살펴보기
숫자 및 범주 예측 변수를 포함하는 모델의 출력을 살펴보면서 해당 회귀의 계수를 이해하는 방법을 알아보세요. 상호 작용.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다