예제를 통한 회귀분석 4장

이제 모델이 데이터에 얼마나 잘 맞는지에 대한 더 나은 관점을 위해 그래픽 출력을 살펴보겠습니다. 먼저 데이터에 중첩된 회귀 선을 보여 줄 수 있는 선 맞춤 플롯이 있습니다. 이는 설명 데이터 분석에서 산점도에 중첩된 것과 정확히 동일한 선이지만 예측에 대한 95% 신뢰도 대역도 나타낸다는 점을 제외하면 해당됩니다. Minitab 통계 소프트웨어는 회귀 분석의 다른 유형의 번호를 제공합니다. 다음 게시물에서 설명하는 것처럼 올바른 유형을 선택하는 것은 데이터의 특성에 따라 다릅니다. 이 모델에 대한 차트 출력의 나머지 내용은 다음과 같습니다. 잔류 대 관측 번호 차트 (즉, 타임 시리즈 데이터에 항상 중요 한 시간 대 잔차) 이전 차트에서 매우 명백 하지 않은 몇 가지 세부 사항을 보여줍니다., 즉 모델이 몇 가지 심각한 오버 예측 (오류는 오류) 부정적 징후)와 함께 심각한 언더예측을 할 수 있습니다. 이 플롯은 모델의 가장 큰 오류의 거의 모든 하반기에 발생 것을 보여 한다는 사실에 대 한 다소 불만족. 그 이유는 분명하다 : 가격 조작의 대부분과 판매 스파이크의 대부분은 하반기에 발생.

그러나 모델은 독립 변수의 값에 관계없이 오류의 모든 지점에서 동일한 분산을 가져야 한다고 가정합니다. 1) 서수 데이터를 연속 데이터로 포함할 수 있습니다. 이렇게 하면 1에서 2로 가는 것은 2에서 3 등등으로 가는 것과 동일한 배율 변경이라고 가정합니다. 실제 연속 데이터와 마찬가지로. 다항식 및 변환을 추가하여 적합성을 개선할 수 있습니다. 이 엄지 손가락 규칙은 일반적으로 허용되지만 Green(1991)은 이 것을 한 단계 더 발전시키고 회귀에 대한 최소 샘플 크기는 50이어야 하며 기간당 8개의 관측값은 추가로 사용해야 한다고 제안합니다. 예를 들어 상호 작용하는 변수와 세 개의 예측 변수가 있는 경우 과적합을 방지하려면 샘플에 약 45-60개의 항목이 필요하거나 녹색에 따라 50 + 3(8) = 74개의 항목이 필요합니다. 회귀 분석은 이러한 변수 중 실제로 영향을 미치는 변수를 수학적으로 정렬하는 방법입니다.

그것은 질문에 대답 : 가장 중요한 요인은 무엇입니까? 우리는 어느 것을 무시할 수 있는가? 이러한 요소들은 서로 어떻게 상호 작용합니까? 그리고, 아마도 가장 중요한 것은, 우리는 이 모든 요인들에 대해 얼마나 확실한가? 회귀 분석 또는 한 요인이 다른 요소에 미치는 영향을 설명하려고 하는 다른 분석으로 작업할 때마다 중요한 속담: 상관 관계는 인과 관계가 아님을 기억해야 합니다. 이것은 매우 중요하며 비와 월별 매출 사이에 상관 관계가 있다고 말하기 쉽습니다. 회귀는 실제로 관련이 있음을 보여줍니다. 그러나 비가 판매를 일으켰다고 말하는 것은 완전히 다른 것입니다. 우산을 팔지 않는 한 원인과 효과가 있다는 것을 증명하기가 어려울 수 있습니다.

Shares

Posted on 2nd August 2019 in Uncategorised

Share the Story

About the Author

Back to Top
Shares