5 쌍봉 분포의 예 (아무것도 사람의 키가 아님)

미국 (및 내가 아는 모든 다른 국가)은 우리가 아이들에게 바이 모달 배포에 대해 가르치는 방법입니다. 바이 모달 분포는 최소한 표준 편차의 합만큼 떨어져있는 두 개의 피크 (모드)가있는 데이터 세트입니다. 다음과 같이 보입니다.

알아야 할 중요한 분포입니다. 데이터가 이와 같이 보이면 평균 계산이 전혀 쓸모가 없기 때문입니다. 예를 들어 위의 분포의 경우 평균 (약) 0을 얻습니다. 이는 데이터 자체에 대해 거의 알려주지 않고 두 피크를 완전히 놓칠 것입니다. 여태까지는 그런대로 잘됐다. 그러나 이것이 통계 수업에서 가르 칠 때, 대부분의 아이들에게 주어진 “실제 세계”의 예는 인간의 키입니다…. 그리고 인간의 키는 바이 모달이 아닙니다. Bummer.

학년의 시작이라는 점을 감안하면 그리고 모두 새로운 예를 교사들에게 제공하는 것이 좋은시기라고 생각했습니다. 이제 사용할 수있는 기본 데이터 세트에 따라 이러한 예 중 일부는 결합 된 표준 편차의 길이로 분리 된 피크를 만들지 못할 수 있습니다. ”컷오프도… ..하지만 적어도 당신은 새로운 방식으로 틀릴 것입니다. 그게 중요 하죠?

  1. 변호사 급여 시작 평균적으로 새 변호사는 잘합니다. 실제로는 “졸업 후 좋은 직업을 얻는”게임 전체에서 큰 승자와 패자가 있으며 급여 분배에도 나타납니다. 여기에서 법의 위의 불만 사항을 읽어보십시오.
  2. 도서 가격 책 가격 클러스터 주변 God Plays Dice가 설명하는 것처럼 문고판을 보는지 양장본을 보는지에 따라 가격대가 다릅니다. 문고판과 양장본의 차이가 충분하지 않다면 Amazon.com에서 제공되는 모든 책에 대한 가격 데이터를 가져올 수 있다고 상상해보세요. 일반 도서 용과 교과서 용의 두 가지 모드로 끝납니다.
  3. 최대 식당 시간 모든 고객이 특정 날짜에 식당에 들어온 시간에 대한 히스토그램을 플로팅했다면 바이 모달 분포는 점심과 저녁의 2 개 지점입니다. 이러한 유형의 히스토그램은 도로 사용량 (오전 및 오후 러시아워) 및 주거용 수도 / 전기 사용량 (작업 전후)을 매핑 할 때도 나타나는 경향이 있습니다.
  4. 속도 제한 이것은 실제로 많은 데이터를 찾을 수 없었습니다. 하지만 미국의 모든 도로 (또는 귀하의 주)에서 모든 속도 제한을 매핑하면 분포가 약 30/35에 밀집된 다음 다시 약 60/65에 집중 될 것입니다. 기본적으로 고속도로 또는 일반 도로. 이 분포는 또한 우리가 수 마일의 도로를 사용했는지 또는 도로의 수를 사용했는지에 따라 다르게 왜곡되는 추가 주름을 가질 수 있지만 이는 완전히 다른 문제입니다.
  5. 질병 패턴 Jules의 블로그 게시물이 두 부분으로 나뉘어져 있습니다. 여기와 여기에서 bimodal 암 패턴을 논의하는 J Berman. 기본적으로 이들은 비슷하게 보이지만 다른 연령대에 해당하는 경향이있는 암입니다. 예를 들어 Karposi의 육종은 AIDS에 걸린 젊은 남성과 AIDS가없는 노인을 때리고 Berman은 이러한 패턴을 보는 것이 질병 자체에 대한 중요한 단서를 제공해야한다고 주장합니다. Berman의 게시물에서 가능한 설명 : 1. 여러 연령대를 대상으로하는 여러 환경 적 원인 2. 다른 지연 시간을 가진 여러 유전 적 원인 3. 하나의 이름으로 분류 된 여러 질병 4. 결함이 있거나 불충분 한 데이터 5. 1,2,3 및 4의 조합

바이 모달 분포는 데이터 분석의 첫 번째 규칙이 무엇이든하기 전에 항상 데이터 그래프를 빠르게 살펴 보는 것입니다. 위의 예에서 볼 수 있듯이 봉우리는 거의 항상 중요한 정보 세트를 포함하고 있으며 전혀 이해하기 위해 개별적으로 또는 함께 이해해야합니다.

그래서 가장 좋아하는 비인간은 무엇입니까? 높이 예?

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다