5バイモーダル分布の例(いずれも人間の身長ではない)

統計教育に関するすべての奇妙なことの米国(および私が知っている他の国)は、バイモーダル分布について子供たちに教える方法です。二峰性分布は、少なくとも標準偏差の合計と同じくらい離れている2つのピーク(モード)を持つデータのセットです。次のようになります。

データがこのようになっていると、平均の計算がまったく役に立たなくなるため、知っておくべき重要な分布です。たとえば、上記の分布の場合、平均(約)がゼロになります。これは、データ自体についてほとんど何も教えてくれず、両方のピークを完全に見逃してしまいます。ここまでは順調ですね。ただし、これが統計クラスで教えられる場合、ほとんどの子供に与えられる「現実世界」の例は人間の身長です…そして人間の身長は二峰性ではありません。バマー。

それが学年の始まりであることを考えるとそして、すべて、教師にいくつかの新しい例を提供するのに良い時期だと思いました。現在、使用する可能性のある基になるデータセットによっては、これらの例の一部では、「合計標準偏差の長さで区切られたピーク」が作成されない場合があります。 」カットオフも…..しかし、少なくともあなたは新しい方法で間違っているでしょう。それは何かを考慮に入れる必要がありますよね?

  1. 弁護士の初任給平均して、新しい弁護士はうまくやっています。実際には、「卒業後に良い仕事を得る」ゲーム全体で大きな勝者と敗者があり、それは給与分布に示されています。上記の法律の苦情をここで読んでください。
  2. 本の価格本の価格は周りに集まっていますGod Plays Diceが説明しているように、ペーパーバックとハードカバーのどちらを見ているかによって、価格が異なります。ペーパーバックとハードカバーのギャップが十分に広くない場合は、Amazon.comで入手できるすべての本の価格データを取得できると想像してください。最終的には、通常の本用と教科書用の2つのモードになります。
  3. レストランのピーク時間すべての顧客が特定の日にレストランに入ったときのヒストグラムをプロットすると、最終的にはこのタイプのヒストグラムは、道路の使用状況(午前と午後のラッシュアワー)と住宅の水/電力の使用状況(仕事の前後)をマッピングするときにも表示される傾向があります。
  4. 速度制限これは私が実際に多くのデータを見つけることができなかったものです、しかし、米国の道路の1マイルごと(または州だけ)のすべての制限速度をマッピングすると、分布は30/35前後にクラスター化され、次に60/65前後にクラスター化されると思います。基本的に高速道路または通常の道路。この分布には、何マイルもの道路を使用したか、道路の数を使用したかによって、歪むという追加のしわもありますが、それはまったく別の問題です。
  5. 病気のパターンジュールスによるかなり魅力的な2部構成のブログ投稿があります。こことここで二峰性の癌パターンについて議論するJバーマン。基本的に、これらは似ているように見えますが、かなり異なる年齢層を襲う傾向がある癌です。たとえば、カポジ肉腫はエイズのある若い男性とエイズのない年配の男性を襲い、バーマンはこれらのパターンを見ることで病気自体についての重要な手がかりが得られるはずだと主張しています。 Bermanの投稿から考えられる説明:1。さまざまな年齢を対象とした複数の環境原因2.さまざまな待ち時間の複数の遺伝的原因3.1つの名前に分類された複数の病気4.データの欠陥または不十分5.1、2、3、4の組み合わせ。

バイモーダル分布は、データ分析の最大のルールが、何かをする前に常にデータのグラフをすばやく確認することである大きな理由でもあります。上記の例からわかるように、ピークにはほとんどの場合、独自の重要な情報セットが含まれており、完全に理解するには、別々に、または一緒に理解する必要があります。

では、人間以外のお気に入りは何ですか。高さの例?

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です