はじめに
はじめまして、ビッグデータ推進課のkitax1929です。
データ分析というとグラフなどイメージが強いと思いますが、前作業の一つである「データクレンジング」を紹介します。
データクレンジングって何?
cleanse=洗う、清潔にする
つまり、データを綺麗にする作業のことです。
綺麗でないデータが何かというと、誤字脱字やフォーマットの違い、データが欠損してしまっているなどの理由によって、分析に支障をきたすデータです。
分析に使用するデータからそれらのデータを修正や削除することで、システムで利用するために適した形にする必要があります。
データクレンジングの一例
※実例を簡略化したものです。
以下は従業員ごとに商品の売上を記録したデータです。
ここから商品カテゴリごとの売上の合計を出す場合、商品カテゴリ列ごとに売上列の合計を計算することで、出すことができそうです。
実際にやってみます。
「カテゴリA」が複数存在することが分かりました。
確認したところ、「カテゴリA」の「A」が全角になっているデータが存在するようです。
商品カテゴリ列に対して、全角を半角に変更する処理を行うことで、正しいデータを集計することができました。
おわりに
何故データクレンジングを紹介したかというと、私がデータ分析に触れ始めた頃、綺麗でないデータに対して「あぁ、そういうデータなんだな」程度の認識しか持てていなかったためです。
上記の例の結果としては、最初に「ある商品カテゴリは特定の月の売上が低い」という集計結果が得られました。
しかし、商品の特徴と断定する前にデータを調査した結果「売上が低い月だけ異なる商品カテゴリが登録されたデータがある」事が判明し、未然に集計結果のミスリードを防ぐことができました。
このように、データクレンジングという作業を通じて綺麗でないデータの可能性を考慮しやすくなり、早期発見できるケースも増えると思います。
今回紹介したのはほんの一例なので、興味がある方は調べてみてください!
リンク
当社問い合わせフォーム: