皆さん、はじめまして。ビッグデータ推進課のkawasamaru7です。
入社して7年目で趣味は、サッカー観戦です。
今回は「モデル構築」について紹介したいと思います。
0.モデル構築とは?
モデル構築とは、データ内の様々な項目を用いて分析を行い、項目から導き出した答えをモデルとしてまとめることです。
イメージがつかない方が多いと思うため、自身の業務になぞらえて説明していきたいと思います。
「モデル」については「モデルの作成術」で説明があるため、こちらでは割愛しております。詳しく見たい方は、下記リンクからご確認ください。
1.どのようにモデル構築を行っているか?
私は、お客様(企業)の業務をサポートするモデルを構築しております。
作業内容としては、お客様(企業)から受領したデータを要望(ニーズ)に合わせて加工をし、加工データをWeb上で分析できるアプリケーションに読み込ませてモデルを構築しています。
下図では、私の作業とWeb上で分析できるアプリケーションで行っている作業を図にまとめました。
2.モデル構築で重要な要素
ここでは、モデル構築で重要な要素をお話したいと思います。
着任当初は、モデル構築に関しての知識が全くありませんでした。最初は、右往左往しながらモデル構築を行っていましたが、多くのモデルを構築していく中で良いモデルを作るための要素を学ぶことができたので皆様にご紹介したいと思います。
良いモデルを作るためには、以下の3つの要素が重要と考えております。
「データの件数」、「項目数」、「記述量」です。
私は、サッカー観戦が好きなのでサッカーチームのセレクションで例えてみました。
セレクション合否を予測するためのモデルを構築すると仮定し、説明をしていきます。まず最初に項目の説明ですが、項目「年齢」から項目「能力(統率力)10段階評価」までが「説明変数」で項目「セレクション合否」が「目的変数」となります。
・「説明変数」は、何かの原因となっている変数。
・「目的変数」は、その原因を受けて発生した結果となっている変数。
下図は、サッカーチームのセレクションのデータです。
AさんからJさんまでのセレクションデータのレコードがあり、こちらが「データの件数」となります。
データ件数が重要な理由として、データ件数が多いことでモデル構築時のサンプル数が多くなり、モデルを構築した際に信憑性が高いモデルを構築することができることが挙げられます。
なぜ、信憑性が高いのか?例えば、100件のデータと500件のデータでそれぞれモデル構築するとします。両方で良い精度が出たと仮定して2つのモデルを比べた時に100件のデータで構築したモデルよりも500件のデータで構築したモデルのほうがより多くのサンプルを使って構築しているため、100件のデータで構築したモデルよりも信憑性が高いといえます。
続いて「項目数」のお話ですが、モデル構築の際には、Web上で分析できるアプリケーション(以下アプリ)が「年齢」から「能力(統率力)10段階評価」の項目を用いてモデルの精度を出しています。項目数が多いと学習するための素材として多く使えるため、より特徴を捉えた答えを導くことができます。
最後に「記述量」についてです。
先ほど、項目数のお話をしましたが項目数が多くても項目自体の記述量が少ないとアプリがその項目をモデル構築で使用しません。記述量が多ければ多いほど、学習するための素材が多いため、正確な答えを導くことが出来るようになります。
3.どのようなデータ項目からモデルが作られているのか?
ここでは、どのようなデータ項目からモデルが作られているのかをお話したいと思います。
下図は、サッカーチームのセレクションデータとなっております。
チーム作りの要望とモデル構築に使用する項目をまとめました。
要望とモデル構築での使用項目を箇条書きに記載し、使用できる項目と使用できない項目を記載しました。使用できない項目に関しては、使用できない理由を記載しております。
4.最後に
モデル構築に関しての知識が全くない状態からスタートしたため、
そのため、
今回は、「
最後までご覧いただきありがとうございました。
当社問い合わせフォーム:https://www.css-net.co.jp/contact/