【SAS勉強会 -第5回-】SASの記述統計量について

f:id:pinkie79:20211208111538p:plain

皆さん、こんにちは。yukidarumaaaaです。

SASシリーズ第5回目です。
今回はSASの記述統計量について紹介していきます。
SAS未経験の方も一緒に学んでいきましょう!

 

前回の記事はこちら👇

blog.css-net.co.jp

 

 

1.記述統計量とは

まず記述統計量について説明します。

記述統計量とは、収集したデータを用いて、平均や分散、標準偏差などを計算して分布を明らかし、データの示す傾向や性質を把握する統計手法のことをいいます。

SASではSASプロシジャ(関数的なもの)を使って記述統計量を簡単に表すことが可能です。

2.SASプロシジャ

記述統計量を表すことができるSASプロシジャも複数あり、

今回は「MEANSプロシジャ」と「FREQプロシジャ」についてご紹介します。

 

SASプロシジャは下記ブログで紹介したPROCステップを利用します。

blog.css-net.co.jp

2-1.MEANSプロシジャ

MEANSプロシジャでは、数値型の変数に対し[平均][標準偏差][最小値][最大値]を自動で計算し結果を出力することが可能です。

 

基本構文と出力結果は以下となります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

■基本構文

PROC  MEANS  DATA=対象データセット;

       VAR  分析変数 ;

RUN;

 

■出力結果

f:id:yukidarumaaaa:20211108082248p:plain

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

 

あらかじめ用意した下記データセットの「age(年齢)」を分析変数にして実行してみました。実行結果は以下となります。

 

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

■データセット(work.test)

f:id:yukidarumaaaa:20211109080552p:plain

■構文

PROC  MEANS  DATA=work.test;

       VAR  age ;

RUN;

 

■出力結果

f:id:yukidarumaaaa:20211109081315p:plain

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

このように MEANSプロシジャは設定した分析変数(age(年齢))に対して、[平均][標準偏差][最小値][最大値]を出力してくれます。SASではビックデータを用いて分析することが大変多く、算出したいときに便利です。

またMEANSプロシジャでは様々な応用ができるため、そちらもいくつか紹介いたします。

応用編① 複数設定可能

分析変数は複数設定することができます。

先ほどのデータセットを用いてage(年齢)とgender(性別)を分析変数に設定して実行してみました。

構文と出力結果は以下となります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

■データセット(work.test)

f:id:yukidarumaaaa:20211123141238p:plain

 

■構文

PROC  MEANS  DATA=work.test;

       VAR  age gender;

RUN;

 

■出力結果

f:id:yukidarumaaaa:20211123140412p:plain

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

このように設定した分析変数それぞれ結果を算出することができるため、分析変数毎にロジック組む必要がありません。結果を比較したい時など一括で確認できるため便利です。

 

応用編② グループ化可能

グループ化して算出することができます。

先ほどのデータセットを用いてage(年齢)を分析変数に、グループ化したいgender(性別)を集計変数に設定して実行してみました。

構文と出力結果は以下となります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

■データセット(work.test)

f:id:yukidarumaaaa:20211123141238p:plain

 

■構文

PROC  MEANS  DATA=work.test;

       VAR  age;

    CLASS gender;

RUN;

 

■出力結果

f:id:yukidarumaaaa:20211123151051p:plain

 

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

このように集計変数に設定したgender(性別)ごと、分析変数age(年齢)の結果を算出できました。集計変数ごと傾向分析する際に利用可能です。

 

2-2.FREQプロシジャ

FREQプロシジャは[度数][パーセント][累積度数][累積パーセント]を自動で計算し結果を表示することが可能です。

 

基本構文と出力結果は以下となります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

■基本構文

PROC  FREQ  DATA=対象データセット;

       TABLES 分析変数 ;

RUN;

 

■出力結果

f:id:yukidarumaaaa:20211109084526p:plain

 

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

あらかじめ用意した下記データセットの「score(点数)」を分析変数にして実行してみました。実行結果は以下となります。

 

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

■データセット(work.test2)

f:id:yukidarumaaaa:20211123141748p:plain

■構文

PROC  FREQ  DATA=work.test2;

       TABLES  score ;

RUN;

 

■出力結果

f:id:yukidarumaaaa:20211123141835p:plain

 

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

このようにFREQプロシジャは設定した分析変数(score(点数))に対して、[度数][パーセント][累積度数][累積パーセント]を出力してくれます。

パーセントで、どのデータが全体をしめているか確認可能です。

またサンプリング作成した際に各データ同割合になっているかチェックする際にも便利なプロシジャです。

 

3.おわりに

今回はSASの記述統計量の「MEANSプロシジャ」と「FREQプロシジャ」について紹介いたしました。SASの記述統計量は他にも「SUMMARYプロシジャ」などがございます。

また、「MEANSプロシジャ」では[平均]や[最大値][最小値]の他に[合計]や[分散]なども算出可能です。興味のある方はぜひ調べてみてください。

 

さらに詳しい資料はこちらから。

データ分析の必要性から、CSSが取り組んできたデータ分析の実績や事例までをまとめてご説明します。

marketing.css-net.co.jp