ほんとうの調達・購買・資材理論「調達関係者に絶対に役立つ統計講座2回目」
さて、前回の連載ではヒストグラムを作成した。ある工場で生産したネジの重量を使って、グラフを作成してみた。
<クリックすると大きくできます>
(失念したひとはバックナンバーを参照ください)
このヒストグラムって明らかに生産がおかしいことを示している。ネジのバラつきを見ても、てんで法則性がない。これは生産自体がぐちゃぐちゃだ。
ということでライン長なり、工場長が生産技術を改善して製品精度をあげたとしよう。そうすると、こういうヒストグラムになるかもしれない。
<クリックすると大きくできます>
これは改善できている。というのも、中央あたりから、釣鐘形(釣鐘を逆さにしたような形)になっているからだ。今回は、この改善後のネジ重量から話をすすめていく。
改善したとはいっても、すべてが同じ重量ではない。生産とは、あるいはモノづくりとは、生き物だから完全に100%同じ重量では生産できない。かならず1gでも、0.0000001gでも微妙にズレるものだ。では、そのズレをどう評価していけばいいんだろう。これが今回のテーマだ。
エクセルファイルを見ながら聞いてほしい。
http://www.future-procurement.com/107.xlsx
まず、ここでご紹介したいのが
・平均値
・中央値
・最頻値
の概念だ。ご存じの方は読み飛ばしてくれてもかまわない。簡単に述べる。
・平均値:データを合計して、データの数で割ったもの
・中央値:データを、小さいものから大きいものに並べていったときに、ちょうど中央にくる値
・最頻値:データのなかでもっとも出現頻度が高い値
それぞれ、Excelの関数がある。
平均値は=average()だ。これくらいは知っているよね。
<クリックすると大きくできます>
中央値は=median()だ。
<クリックすると大きくできます>
最後に最頻値は=mode()だ。これになると知らないかも。
<クリックすると大きくできます>
こうやって、平均値、中央値、最頻値を計算していく。なぜ平均だけではいけないか。これは、たとえば異常値の存在によって必要となる。というのも、生産ネジのうち一本だけ100Kgだったとする。そうすると、その一本のせいで平均値は上がってしまう。だけど、そんな平均値なんて意味がない。その意味で、中央値が役立つ。
たとえば人びとの年収や貯蓄額もそう(上位の一部だけがたくさんもらったり貯蓄したりしている)といわれる。そんなときには平均値だけを見てびびったりする必要はない。冷静に中央値をみればいいんだ。
・分散とか標準偏差について
さて、ここから、次にデータをいじりまわし、分散とか標準偏差に行く。さあ、ここからが大変だ。というのも、文系社員の場合って、この分散とか標準偏差がわからないので統計を投げ出してしまうんだよ。
ここでも学術的な解説はやめておこう。繰り返し、私たちはビジネスマンであり、統計は使えればいい。そこで、こう考えてほしい。分散なんて、意味はわからなくていい(きっぱり)。ただ、標準偏差っていうのは、「平均値からこれくらいバラつくぜ」という値だ、と覚えてほしい。
事例を出して単純化してみよう。たとえばネジの平均重量が10グラム、そして標準偏差が1グラムだったとしよう(あくまで例)。そうすると、標準偏差は「平均値からこれくらいバラつくぜ」だったから、このネジっていうのは
・10グラム+1グラム=11グラム
・10グラム-1グラム=9グラム
だから、9~11グラムの範囲をとりうるぜっていうことだ。じゃあ、どれくらいの(何パーセントの)確率で、その範囲をとりうるかっていうのは、また次回にやろう。ここでは、標準偏差の直感的な意味を覚えてほしい。したがって、平均と標準偏差さえわかれば、そのデータの、だいたいの範囲がわかる。予想しておくべき範囲がわかるのだ。これは統計として使える一つ目の武器だ、と私は思う。
じゃあ、どうやって、この標準偏差を計算するのか。分散なんて覚えないでいいっ!っていったけれど、標準偏差を求めるために分散も計算しなきゃなんない。
では次のエクセルファイルを見ながら聞いてほしい。
http://www.future-procurement.com/107_2.xlsx
まず、データの平均値をとる。D列のところだ。次に、そのデータの平均値とそれぞれのデータの差を自乗する。理由なんて考えなくていい。手順なんだから。そして、差を自乗したものを、合計する。
<クリックすると大きくできます>
<クリックすると大きくできます>
<クリックすると大きくできます>
さらに、合計したものを、データ数マイナス1で割る。なぜ割るのか、あるいはなぜデータ数をマイナス1にするのか。ちょっとあとで説明するけれど、ここも基本的には考えなくて良い。方法だけ覚えておこう。
<クリックすると大きくできます>
で、標準偏差だけれど、この分散をルート(√)にいれてやればいい。エクセルでは^(1/2)とか^0.5とかって計算する。関数では=SQRT()っていうのもあるけれど、まあ、ここまで覚える必要はない。「^」っていうのは、何乗かを示すやつだから、√にしようと思えば1/2か0.5になるっていうわけ。
<クリックすると大きくできます>
さあ、そうすれば標準偏差が6.55だよね。だから、このネジっていうのは、平均値+標準偏差、あるいは平均値-標準偏差を計算すると(あえて四捨五入で計算)
・116グラム+6.55グラム=122.55グラム
・116グラムー6.55グラム=109.45グラム
となり、109.45~122.55グラムくらいはバラつくぜってことになる。
Excel関数でやろうと思えば(まあ、最初からこれを紹介しろってことなんだけれど)、分散は=var()、標準偏差は=stdev()を使えばすぐに計算できる。
<クリックすると大きくできます>
<クリックすると大きくできます>
・さらに学びたいひとへ~分散とか標準偏差についての追伸~
さっき私は、「理由なんて考えなくていい。手順なんだから」なんて書いた。でも、分散と標準偏差については、直感的に説明しておこう。分散っていうのはね、それぞれのデータが平均からどれくらい離れているかを合計して、それをデータ数で割ったものだった。
じゃあ、なんでデータ数マイナス1で割るかというとね、「バラつき度を多めに試算しとこう」ってことなんだ。たとえば、100を10で割るのと、9で割るのとでは分散が違ってくるよね。なんでこうしているかというと、計算したデータは標本といって、母集団全体ではないからだ。
どういう意味かって? 今回はネジの重量データを使った。でも、これって生産したネジすべてではない。工場では無数のネジを生産しており、そのなかの一部だ。だから、母集団とは(何百個か何万個かわからないけれど)そのすべての数で、標本とはそこから抜粋したものだ。
<クリックすると大きくできます>
だから、分散を求めるときに「これは母集団じゃないから、バラつき度を多めに評価しとこうか」ってことなんだ。統計的にはこの分散を「不偏分散」というんだけどね。これも覚える必要はない。
基本的には私がこれまで語ったような、分散と標準偏差を求めればいい。つまり、=var()と=stdev()だ。だけれど、たまに、「いやいや、計算する元はすべてのデータ=母集団だ」というケースがあるだろう。まあ、なかなか考えにくいけれど。その場合は、=varp()と=stdevp()っていう関数を使うことだけ覚えておいてくれ。
<クリックすると大きくできます>
<クリックすると大きくできます>
つまり、
・あなたが使うデータが全体のなかの一部のデータを使う場合:=var()と=stdev()
・あなたが使うデータがすべてのデータを使う場合:=varp()と=stdevp()
そして、この標準偏差っていう概念がわかれば、次々にデータが使えるようになっていくんだ。
<つづく>