データ分析の裏:データクレンジング

はじめに

はじめまして、ビッグデータ推進課のkitax1929です。

データ分析というとグラフなどイメージが強いと思いますが、前作業の一つである「データクレンジング」を紹介します。 

データクレンジングって何?

cleanse=洗う、清潔にする

つまり、データを綺麗にする作業のことです。

綺麗でないデータが何かというと、誤字脱字やフォーマットの違い、データが欠損してしまっているなどの理由によって、分析に支障をきたすデータです。

分析に使用するデータからそれらのデータを修正や削除することで、システムで利用するために適した形にする必要があります。

データクレンジングの一例

※実例を簡略化したものです。

 以下は従業員ごとに商品の売上を記録したデータです。

f:id:kitax1929:20200824004451p:plain

ここから商品カテゴリごとの売上の合計を出す場合、商品カテゴリ列ごとに売上列の合計を計算することで、出すことができそうです。

実際にやってみます。

f:id:kitax1929:20200824031919p:plain


「カテゴリA」が複数存在することが分かりました。

確認したところ、「カテゴリA」の「A」が全角になっているデータが存在するようです。

商品カテゴリ列に対して、全角を半角に変更する処理を行うことで、正しいデータを集計することができました。

f:id:kitax1929:20200824010138p:plain 

おわりに

何故データクレンジングを紹介したかというと、私がデータ分析に触れ始めた頃、綺麗でないデータに対して「あぁ、そういうデータなんだな」程度の認識しか持てていなかったためです。

上記の例の結果としては、最初に「ある商品カテゴリは特定の月の売上が低い」という集計結果が得られました。
しかし、商品の特徴と断定する前にデータを調査した結果「売上が低い月だけ異なる商品カテゴリが登録されたデータがある」事が判明し、未然に集計結果のミスリードを防ぐことができました。

このように、データクレンジングという作業を通じて綺麗でないデータの可能性を考慮しやすくなり、早期発見できるケースも増えると思います。

今回紹介したのはほんの一例なので、興味がある方は調べてみてください!

リンク

当社問い合わせフォーム:

www.css-net.co.jp