社内説明や営業提案など、ビジネスマンにはプレゼンや資料作成の機会が多くありますが、未来の予測を数値で語れると、説得力が一気にアップしますよね。プレゼンや資料の印象もぐっと良くなります!「難しい計算とか難しそうな分析とか無理…」という方でも大丈夫。Excelがあれば、過去データからちょっとした未来の予測が簡単にできてしまいます!
 
 
目次
 
 
単回帰分析とは/Excelで統計分析の第一歩
「単回帰分析」とは、過去データから未知の予測値を出す分析手法の一つ。数ある統計解析や分析手法の中でも、2つの相関するデータを使って分析するシンプルでわかりやすい手法です。Excelを使えば、グラフなどで可視化しながら簡単に分析できるので、分析する自分にとっても、説明される側にとっても分かりやすい、分析一歩目としてふさわしい方法です。売上や発注見込み数などのシンプルな予測値が必要な時は単回帰分析でも十分です。
 
今回は「芥川賞・直木賞の2030年時点の男性割合の予測する」という分析を見ながら流れを理解しましょう!
 
 
作業の流れ4ステップ
Excelでの単回帰分析はとても簡単。
データを準備→散布図作成→近似曲線を表示する→方程式から計算、です!
 
 
STEP1)まずはデータの準備!分析の大切な一歩目。
分析で一番大切なのはデータの準備です。正しい分析結果を得るために、必要なデータを丁寧に用意しましょう。
 
1.データを集める
今回のゴールは「芥川賞・直木賞の2030年時点の男性割合の予測」なので、まずは芥川賞・直木賞の過去受賞者のデータが必要です。
 
受賞者のデータは文学賞の運営をしている公益財団日本文学振興会(こちら)で調べました。さらに、このサイトには性別が記載されていないため、他のWebサイトで性別も調べ、Excelでリストを作ります。分析しやすいよう、性別などの情報は「0」「1」などの数値を当てはめてリスト化します。
 
2.データを分析できる状態にする(集計する)
今回知りたいのは受賞者の男性人数ではなく、男性割合です。作った表から男性割合の列を作っておきます。
 
タブレット
 
 
STEP2)散布図作成
STEP1で作成した表からグラフを作成します。普段、割合の変化を見るのであれば折れ線グラフなどを使いますが、単回帰分析をするなら散布図を使用します。
 
タブレット
芥川賞受賞者の男性割合(1年スパン)
 
*ここで一工夫!*
上記のように1年毎の割合をそのまま散布図にすると、男性割合は年々増加傾向にあるのか、減少傾向にあるのか、はたまた変動が激しいのか、点がばらついて傾向がわかりにくい状態に。(なんとなく男性の割合が低い年が増えてるかな、くらいしか分かりません…。)後述しますが、予測する数値の信用度を表す「相関係数」も低いです。
文学賞の受賞者は毎年0~4人とデータが小さく、1,2人の増減が割合に大きく影響を及ぼし、傾向が見づらいというが起こります。そこで、文学賞のような何十年にもわたるデータであれば、STEP2のデータ集計時に「●●年ごと」とスパン毎に男性割合を出すと散布図に傾向が表れてきます。下記は3年・5年・10年スパンで改めて集計し、作成した散布図です。
 
タブレット
 
この時、スパンの延ばしすぎには要注意。これは「データを圧縮すること」なので、傾向が出やすくなったり、相関係数が強くなったりするのは当たり前。そのような散布図から予測値を計算しても、その予測値の信頼度が低くなります(予測が外れる可能性が高まるということです)。圧縮しすぎるのも考え物なのです。そんな時は「P値」という数値も見るといいので、気になる方は検索してみてください。
 
今回は5年スパンの散布図で次のステップに進みます。
 
 
STEP3)単回帰分析/近似曲線をひく!
散布図に散らばっている各データの点を元に、「このデータにはこういう傾向があるよ」と直線や曲線で表してくれるのが近似曲線。簡単にデータの傾向を可視化することができます。
 
グラフツールのタブから、デザイン>グラフ要素を追加>近似曲線>その他の近似曲線オプションと進み、近似曲線を選びます。さらに、「グラフに数式を表示する」「グラフにR-2乗値を表示する」にもチェックを入れます。すると散布図に、データの傾向を表す線と、その線の方程式、R-2乗値が表示されます。
 
タブレット
 
*ここでポイント!近似曲線の選び方*
近似曲線は、分析するデータに合うものを選択します。Microsoftのサポートサイトでは、どんなデータにはどんな近似曲線が適切かまとめてくれているので参考にしましょう。今回は「対数近似曲線」を選びました。
 
*ここでポイント!「R-2乗値」とは*
近似曲線を選ぶ時にもう一つ参考になるのは「R-2乗値」。R-2乗値とは決定係数・相関係数ともいい、データ間の相関の強さを表しています。つまり、「偶然その結果になっただけ」なのか「きちんと相互に影響を及ぼすデータだから予測値の信頼性は高いよ」なのかを教えてくれる数値です。正の相関時(増加傾向の時)は1に、負の相関時(減少傾向の時)は-1に近いほど相関が強く、予測値の確からしさにつながります。STEP2でも近似曲線を出し、R-2乗値をみて、「1年毎の割合だと相関係数がよくないな」と判断したわけです。
 
 
STEP4)単回帰分析/未来の数値を導き出す
STEP3で分かった近似曲線の方程式から、予測したい2030年時点の男性割合を計算します。Excelの余白のセルにでも方程式をコピーし、xに予測したい「2030」を代入して計算すると楽です。
 
タブレット
 
 
まとめ
Excelでの単回帰分析で、未来の数値を予測する方法、いかがでしたか?この簡単な分析1つで、説明資料やプレゼンは格段に説得力が増すはずです!
やってみると意外と簡単なので、とりあえず1回だけでも練習してみてください。国勢調査や統計局などの官公庁のデータの他、実務で扱っている売り上げなどのデータでもOKです。
 
また、たくさんの要因が影響しているようなデータ分析では、単回帰分析ではやはり役不足。「こんなデータの場合はどうやって分析できる?」「今あるデータをもっと活用したいが方法が分からない!」という場合は、お気軽にuhuru analyticsにご相談ください!
この記事を書いた人
丹後 春香
Haruka Tango

データアナリティクス部 戦略分析グループ アナリティクスディレクター

IT系人材サービスを提供する法人営業としてキャリアをスタートし、その後デジタルマーケティング・ブロックチェーンなどの人材育成プログラムの企画・開発に従事。同時にアライアンスやマーケティング等を幅広く経験。ウフルでは、アナリティクスディレクターとして参画。

Contact

ご依頼ご相談など、お問い合わせは下記フォームからお願いいたします。