統計の基礎とは?平均・分散・標準偏差をやさしく解説

統計の基礎とは?平均・分散・標準偏差をやさしく解説

データの数値に悩むビジネスパーソン
「平均と中央値、どう使い分けるの?」
「分散と標準偏差、何が違うの?」
「相関って、結局なにを表してる?」

そんな悩みを抱える、ITパスポート受験者と社会人のあなたへ。

結論から言えば、統計の基礎とは
「データの全体像と散らばり方を、数値で読み取るための考え方」
のことです。

この記事では、代表値・ばらつき・確率と期待値・相関の見方を、初心者向けにやさしく解説します。

 

1. 統計が何の役に立つか

1. 統計が役立つ場面を整理するイメージ

まず、あなたが統計を学ぶ意味を、身近な場面から整理します。

統計とは、たくさんのデータから全体の特徴と散らばり方を数値で読み取るための考え方です。1つひとつの値を眺めるだけでは見えない傾向を、いくつかの指標で要約してくれます。

例えば、テストの点数や売上、Webサイトのアクセス数など、業務でも学習でも「数字の集まり」を扱う場面は多いはずです。そうしたとき、統計の基礎があるとマーケティングミックスなどの判断にも数値の裏付けを持たせられます。

例えるなら、統計は「テストの点数表」のような道具です。クラス全員の点数を眺めるとき、平均で位置を、散らばり度合いで難易度や個人差を読み取りますよね。同じことを、データ一般に対して行うのが統計です。

もうひとつ、健康診断の数値表に近い側面もあります。自分の値が全体のどのあたりにあるかを確認するための、共通のものさしを与えてくれます。

あなたが本格的な分析を業務で行うときは、データ分析の専門家に相談するのが安全ですが、基礎の言葉が分かるだけでも読み手としての解像度は大きく変わります。

 

2. 代表値(平均・中央値・最頻値)

2. 平均・中央値・最頻値を比較するイメージ

次に、データの「真ん中」を表す代表値を3つ押さえます。あなたが統計を扱うとき、まず使うのがこのグループです。

平均(算術平均)は、データの合計を個数で割った値です。最も広く使われる代表値で、全体の水準を1つの数字で表せます。

一方で、中央値はデータを小さい順に並べたときの真ん中の値、最頻値は出現回数が最も多い値を指します。

  • 平均: 合計 ÷ 個数。全体の水準を表す
  • 中央値: 真ん中に並ぶ値。外れ値の影響を受けにくい
  • 最頻値: 一番多く出る値。カテゴリ型データにも使える

3つを使い分けるコツは、データの分布をイメージすることです。点数のように左右に均等なデータなら平均で十分ですが、所得のように一部の大きな値に引っ張られるデータでは、中央値のほうが実感に近い結果になります。

注意したいのは、平均が苦手な分布がある点です。例えば年収のように一部の高額値が混じる分布では、平均は実際の中心から離れがちです。そんなときは中央値や最頻値も合わせて見ると、誤解を減らせます。

代表値のポイント: 平均・中央値・最頻値の3つを場面で使い分ける。外れ値があるときや左右非対称の分布では、中央値・最頻値も合わせて確認する。

 

3. ばらつき(分散・標準偏差・正規分布)

3. 分散・標準偏差・正規分布を読むイメージ

続いて、データの散らばり度合いを表す指標です。あなたが代表値だけでは見えない「個人差」を読み取りたいときに使います。

分散は、各データと平均との差(偏差)を2乗して平均した値です。数字が大きいほどデータがばらついていることを示します。

分散は2乗のため単位が元データと変わってしまいます。そこで分散の平方根(ルート)を取り、元の単位に戻したものが標準偏差です。実務でばらつきを語るときは、標準偏差を使うことが一般的です。

そして、自然界や試験結果などで観察される代表的な分布が正規分布です。平均を中心に左右対称の山型になり、データ分析の出発点になる重要な分布として扱われます。

  • 平均 ± 標準偏差 1つ分の範囲に、データの約 68% が入る
  • 平均 ± 標準偏差 2つ分の範囲に、データの約 95% が入る

例えば、ある試験の平均点が60点・標準偏差が10点なら、約7割の受験者が50〜70点に集まる、というイメージです。標準偏差は、データの「同じくらい」の幅を測る物差しとも言えます。

ばらつきのポイント: 分散は偏差の2乗の平均、標準偏差は分散のルート。正規分布なら、平均 ± 標準偏差1つ分で約68%、2つ分で約95%が収まる、という目安が役立つ。

 

4. 確率と期待値・相関係数

4. 確率と相関係数を確認するイメージ

最後に、判断材料として頻出する確率・期待値・相関係数を整理します。あなたが数値で意思決定する場面で、よく登場する考え方です。

確率は、ある出来事が起こる「起こりやすさ」を 0〜1 の値(パーセント表記なら 0〜百)で表す数値です。期待値は、起こり得る値とそれぞれの確率を掛け合わせて足し合わせた、平均的に得られる値の見積もりを指します。

例えば、当たれば1,000円・外れれば0円のくじで、当たる確率が10%なら、期待値は 1,000 × 0.1 + 0 × 0.9 = 100円、と計算できます。期待値は、損得を考えるときの目安になります。

続いて相関係数です。2つのデータの関係の強さを -1 から +1 の範囲で表します。+1 に近いほど一方が増えるともう一方も増える、-1 に近いほど逆方向、0 付近なら関係が薄い、という読み方になります。

相関の有無は財務会計の数値分析でも使われる発想で、業務で扱うデータの読み解きにつながります。

注意したいのは、「相関と因果は別物」という点です。アイスの売上と水難事故が同じ時期に増えても、片方が原因とは限りません(背後に「暑い夏」という共通要因があるためです)。相関は関係の強さを示すだけで、原因まで保証はしてくれません。

 

5. まとめ: 今日からできる、最初の一歩

まとめ: 今日からの一歩を示すイメージ

ここまで、統計の基礎を4つの視点で整理しました。要点を振り返ります。

  1. 代表値(平均・中央値・最頻値)でデータの真ん中を見る
  2. ばらつき(分散・標準偏差・正規分布)で散らばりを見る
  3. 確率・期待値・相関係数で関係性や見積もりを見る

統計の基礎は、ITパスポートのテクノロジ系(基礎理論・確率と統計分野)でも中核テーマとして出題されます。

今日からできる、最初の一歩はとてもシンプルです。

30分で踏み出す3アクション

  1. 平均・中央値・標準偏差の用語を1枚にまとめる(5分)
  2. 身近なデータ(家計や試験の点数など)で平均と標準偏差を計算してみる(15分)
  3. 関連解説記事を1本読む(10分)

たった30分で、あなたの「数字アレルギー」は動き出します。完璧に計算できなくて大丈夫、まずは指標の名前と役割を口に出せれば十分です。

もし業務で本格的なデータ分析に踏み込むときは、データ分析の専門家に相談するのが安心です。ITパスポート テクノロジ系の問題集で、覚えた用語をすぐに試してみるのもおすすめです。

次のステップ

あなたの学習は、今日この記事を読んだ時点で、もう動き始めています。