統計学を学ぼう

目次

なぜ今「統計学」なのか?

全ての学問は統計学のもとに!!
科学・医学・教育・スポーツまでもが統計学を使っている。
この力があるか無いかで人生が大きく変わる

ITと統計学のマリアージュ

人工知能・競合分析・ウェブ上の統計解析・A/Bテストなどの研究に統計学の理論抜きでは学ぶことは困難である。
統計学を学ぶと
①世の中が見えてくる
②判断力がつく
③正しいレンズで物事が見える
④AI時代のビジネスで成功できる

この先不透明で不安な世の中を見直すため「必須」の知識である。つまり、「統計学は21世紀の教養」である。

統計とは?

統計という文字は「総(す)べて計(はか)る」という意味に理解できます。
数字とその背景の文脈を活用して科学的に不確かな問題を解決してくれるものが統計です。
「数字はウソをつかない、人間は嘘をつく」

統計学を学習するということは
①データを集める方法を学ぶ
②整理して特徴を調べる方法を学ぶ
③グラフの作り方を学ぶ
などの学習をすることです。
いろいろな発見をすることはとても楽しいことで、皆さんの将来や仕事などにとても役立つことです。

統計的問題解決プロセス

統計的問題解決プロセスとは「PPDAC」サイクルである。
P=Problem(問題):問題整理
P=Plan(計画):アウトプット骨子
D=Data(データ):データ収集・整理
A=Analysis(分析):データ分析
C=Conclusion(結論):結論・判断

これらの5つのステップを繰り返し実行することで、統計的な問題解決が可能になる。統計の基礎知識をもとに具体的な問題を考える力「統計的思考力」がつきます。

統計的思考力が大事
統計的思考力とは?=データに基づいて客観的に判断し不確実性を考慮しながら意思決定を行う能力です。

統計分析について

統計分析を使えば
客観的で科学的な仮説が立つ(逆に「主観的でアバウトではない」)
結論を出すことができる

統計分析の方法は?

①データを集める
統計分析にはデータが必要。データを集めて表(度数分布表)にする。
②ばらつき(分布)を調べる
ばらつきのことを統計的には「分布」という。

下記のデータは「会社に出社する手段の度数分布表」です。(N=80)

度数相対度数
地下鉄堺筋線1012.5%
地下鉄四つ橋線2025.0%
JR環状線1417.5%
自転車2835.0%
バス810.0%
小計80100%
※相対度数の計算方法 度数➗データの総数

グラフの作り方としては、凸凹しているより左側に大きい値を持って来る作り方もありますね。

グラフの作成のポイント!
①データの種類を適切に判断する
②データの種類と内容に合ったグラフを選択する

基本的なグラフ

グラフは、データ全体の傾向や特徴を見やすくするための道具です。集めたデータを目的にあった形に整理しグラフにする。

代表的なグラフとその用途
棒グラフ数量の大小を比較する時に使うグラフ
棒の高さが量を示している
折れ線グラフ数量の時間的な変化を示すグラフ
複合グラフ棒グラフと折れ線グラフをまとめたもの
円グラフ
帯グラフ
全体に対する割合を表すときのグラフ

棒グラフ

棒グラフは数量の大小を比較するのに適しているグラフです。
棒グラフは「並び順に注意」です。並び方によって見え方が違って見えることがあります。
棒グラフを横にすると「横棒グラフ」と呼ぶことがあります。
何種類かの棒グラフを一緒に描く「複数系列の棒グラフ」もあります。

折れ線グラフ

折れ線グラフは時間の推移とともに数量が変わるグラフです。
中長期的な傾向(トレンド)をみるのに適しています。
横軸に時間縦軸に数量を表します。
折れ線グラフの活用には「左右の軸を活用する」といった方法があります。

複合グラフ

棒グラフと折れ線グラフの両方を使用した「複合グラフ」があります。
例えば、アマゾン広告などを考えた時に、左側に「売上金額」右側に折れ線グラフの「広告費」などを表示するといいかもしれませんね。→自分の部署の「複合グラフ」を考えてみよう!!

円グラフ

円グラフは全体的に割合などを視覚的にみるのに適しているグラフです。
例)カテゴリー別の売上の割合を見たい時

帯グラフ

上のカテゴリー別の売上円グラフを前年との比較で見たい時などは「帯グラフ」が便利です。

データのばらつき

統計では「データのばらつき」をみることはとても重要です。「ばらつき」とはグラフを作った時にデータ全体のX軸に対してどの程度広がりがあるのか?やY軸に対して縦の数値のばらつきがどの程度あるのかといった「横と縦のばらつき」を理解することが大事です。

データのばらつきをとらえる方法

データの「ばらつき」を見つける方法は、「度数分布表」「ヒストグラム」がとても有効です。上で勉強した「度数分布表」と「ヒストグラフ(棒グラフのようなグラフ)」を使うことによってある程度データのばらつきを大まかに掴むことができます。
※「ヒストグラム」とは、縦軸に度数、横軸に階級、データの分布を棒グラフで表したものです。
ヒストグラムは、「データが、ある値の範囲内に幾つ存在しているか」を把握するための可視化の手法です。
※「棒グラフ」と「ヒストグラム」の違いをしっかり理解しよう!!

データの種類を理解しよう

データには、種類や分類の違い(カテゴリー)で記録される「質的データ」と、大きさや量で数量として記録される量的データ」の2種類があります。

質的データ国籍・血液型・曜日・性別
量的データ身長・体重・返品数・売上個数

質的データ分析

質的データは、種類や分類の違いを示すデータと言いました。質的データを集計するときに用いられる方法としては「正の字」「タリーチャート」によるカウント方法が有効です。

度数分布表

度数分布表とは、上で知った「正の字」や「タリーチャート」で数えたデータの件数を集計したもので、グループに分け、それぞれのグループに当てはまるデータの個数(度数)をまとめた表のことです。=表のことである

品質クレーム度数相対度数
部材破損55/40=0.125
部品不足99/40=0.225
キズ33/40=0.075
部材不足33/40=0.075
運送事故1212/40=0.300
梱包不良54/40=0.125
その他33/40=0.075
小計401.000
度数分布表

上の「度数分布表」を度数の大きいものから並べた棒グラフなどを作るとわかりやすくなります。

パレート図

スクロールできます
球種投球数累積
度数
相対
度数
累積
相対
度数
ストレート1560156047.0%47.0%
スライダー814237424.5%71.5%
カットボール339271310.2%81.7%
チェンジアップ28129948.4%90.1%
カーブ17231665.2%95.3%
フォーク15533214.7%100.0%
合計3321100.0%

このパレート図から松坂投手の70%近くの球種は「ストレート」と「スライダー」であることがわかります。
よく社内でも言われている「パレートの法則」=(2割の商品で8割の売上を上げている)はこの図からそう呼ばれています。

ちょっと雑学

パレートの法則とは=イタリアの経済学者ビルフレッド・パレート(1848~1923)が1880年代のヨーロッパの経済統計から「個人の所得額」と「その所得額以上の所得を得ている人の数」との間に見つけた法則のことをいいます。 「80:20」の法則などと呼ばれています。統計的には少数に人や要因が多くの事や多くの原因になっていることを言っています。

クロス集計表

複数の項目(縦と横も複数)を組み合わせて度数を集計した表のことを「クロス集計表」と呼びます。
目的に合わせて横軸や縦軸の項目を変更することにより、さまざまな分析が可能になります。

スクロールできます
ARY合計行比率
S0134s1103817165
K002228381278
F12533116574
S01343116552
TV00143411247
FR0123228434
U0009135018
KK002135311
TR00052103
合計27415256482
列比率

量的データ分析

質的データに対して「量的データ」と呼ばれるものがあります。Y軸の度数に対して、X軸が数値になるデータを量的データと呼びます。
量的データには2種類あって、「連続データ」と「離散データ」に分けれらます。

連続データ=身長などの小数点を持つ数字
離散(りさん)データ=0.1.2 などの整数の数字

度数分布表(離散データ)

離散データの場合は「整数の値」のみを記録したデータであります。(値ごとに度数分布表を作成する)
値が多くなると一定の範囲で集計をすることもあります。
例)販売個数は離散データだけど、0〜10、10〜20といった一定の範囲で販売アイテム度数を計ることもある。

度数分布表(連続データ)

連続データの場合にも、離散データと同様に度数を集計して全体の様子をとらえることができます。
連続データの分布を示したグラフは、「ヒストグラム(柱状グラフ)」と呼ばれています。
ヒストグラフは棒グラフとは違い、横軸が必ず数値を示します。量のつながり(連続性)を表現するために、柱どうしの間隔は空けないで詰めて描きます、

横軸が連続性を持つグラフを作成したときに、ある一定の範囲(⚪︎⚪︎以上、⚪︎⚪︎未満)を階級=クラスと呼びます。
ヒストグラムを作る時には、この階級幅に注意することも必要です。

度数分布表を読むポイント

データの中心を探す。データの最も度数の多い・大きい階級に印をつけて位置を確認しましょう。
全体の半分をとらえる。=後の章で理解することになりますが、全体の半分(50%)がどの範囲に入っているのかが「ばらつき=分布」にとってとても重要なことになります。

言葉だけ先に覚えちゃおう!

分布図を書いたときに、全体の50%は中央値から25%下と、25%上があります。つまり、真ん中の位置からそれぞれ25%づつ左右にあることになります。それをそれぞれ四分位範囲と言います。

ヒストグラム

ヒストグラフとは=連続型の量的データの度数分布表を柱の面積で表したもの

読むポイント
①形状を見分ける
②山型やベル方で表現する
※データの集中している箇所を山の高いところを表す「峰」または「ピーク」と呼びます。

代表値を理解

データを確認するときの3つの指標があります。それを「代表値」という言い方をします。
代表値には「平均値」「中央値(メジアン・メディアン)」「最頻値(さいひんち)」があります。

①平均値の計算方法
計算方法
平均値は、すべての数値を足し合わせて、数値の個数で割ることで求められます。
)平均値 = (データの合計) / (データの個数)
)例えば、次のデータの平均値を計算してみましょう。
2, 4, 6, 8, 10

  1. データの合計: 2 + 4 + 6 + 8 + 10 = 30
  2. データの個数: 5
  3. 平均値: 30 / 5 = 6
  4. したがって、このデータの平均値は 6 です。

②中央値(メディアン)の計算方法
全体が奇数の場合と偶数の場合では違います。
奇数の場合は小さい方から数えて、(n +1)/2番目のデータです。
偶数個の場合は、n/2番目のデータの値と、n/2+1番目の値平均値です。

③最頻値は
最頻値は最も度数の大きい値のことです。

もう少し深掘りしよう!

①範囲=レンジ(range)について理解しよう。
範囲とはデータの最大値と最小値との差のこと
②きれいな正規分布なら平均値と中央値は同じ。
③正規分布が右に歪んだり、左に歪んだりしているものは、
それぞれの出現は(右に歪む=平均値<中央値<最頻値
左に歪むと=最頻値<中央値<平均値の順に出現する

データの範囲をとらえる

言葉と位置関係を覚えよう

上の図で左から説明すると、一番左が「最小値」その次が、25%点と言われる「第1四分位(しぶんい)」
その次が、中央に値する「中央値」ここは、50%地点となり「第2四分位」とも言われます。
その次が中央から右に25%%地点(最小値からは75%地点)の「第3四分位」そして、最後に「最大値」が左端にきます。

上記の位置関係を「箱ひげ図」に変えると下記のグラフになります。

ちょっと雑学

皆さんは「株」や「FX」の日足(ひあし)をご存知ですか・箱ひげ図の中央値がないものを「日足」と言います。株やFXにはその日の値段がつきます。上にある「箱ひげ図」を縦に見て欲しいのですが、左に90度回転させると、上から「最大値」がその日の値段の「最高値」となり、次に第3四分位の位置がが「始値」または「終値」、次に第1四分位がこれも同じく「終値」または「始値」(「終値が第3なら第1は始値、始値が第3なら第1は終値)となります。最後に右端は「最安値」となるのが株やFXで使われている「日足(ひあし)」と呼ばれています。

散布図を理解する

散布図とは相関図ともいい、2つの量的なデータの分布を同時に表現し、関係を示すことができるグラフのことです。
以下に参考の散布図を示します。

入学試験と入学後の成績

上の散布図から「入学前の試験の結果」と「入学後の成績」には相関関係があるように考えられます。このような散布図から傾向を読み取ることができるのが散布図の特徴です

一緒に覚えてしまいましょう!

散布図はそれぞれの値をX軸とY軸にドットをプロットします。右斜に集まっている分布図は「正の相関関係」と言い、左斜めに(右側が下の方を向いている)集まっている分布図を「負の相関関係」と言います。また、どちらでもないものを「無双感」と言います。
上の図に1本斜めの直線を引くことができそうですが、その斜めの線を数値化したものを「相関係数」と言います。

時系列データの基本的な見方

毎日の売上や広告費などを、時間に沿って等間隔に観測されたデータを時系列データと言います。
横軸に時間縦軸に対象となる変数を記入します。
見方=短期的な変動を見るのではなく、長期的な変化(トレンド)を観測する
以下は品質管理課のクレームの時系列データです。

スクロールできます
2024年1月2月3月4月5月6月7月8月9月10月11月12月通年
2024出荷数66416249867580365907498951614293549846104808746272274
2024クレーム数135116162150110777378776250901180
2025出荷数57284819
2025クレーム数9675

移動平均線

1週間=平均販売数を7日移動平均線
1ヶ月=30日移動平均線
3ヶ月=90日移動平均線と言います
「移動平均線」を使って、複雑な変装をしている時系列データの変化を滑らかにすると、その延長線上で将来の予測をすることが可能になります。

指数・増減率・成長率

指数

時系列データの「指数」とは、基準時点の値を100として、その他の時点の値をその相対値で表したものです。元の時系列データを指数に変換することで、基準時点に対して変化の大きさを読むことができます。

計算式
比較時点Xでの指数=比較時点Xでの値/基準時点Aでの値✖️100

増加(減少)率

時系列データの変化に関して、指数と同様に基準時点からの変化の大きさを見る指標が、増加率(減少率)です。

計算式
比較時点Xでの増加率=(比較時点Xの値ー基準時点Aでの値)/基準時点Aの値

成長率

成長率は、その時点の値を一つ前の時点の値と比較して、増加(減少)率を求めたものです。

計算式
比較時点Xでの成長率=(比較時点Xの値ー一つ前の値)/一つ前の値

目次