IOT・AI活用事例ウェブセミナ

本文

データ可視化・前処理の重要性 製造業での事例

2018.12.17

今回はデータ可視化・前処理と分析に関して事例を紹介します。
*「可視化・前処理・分析」の詳細については書籍で勉強していただき、ここでは活用のヒントとなる事例を二つ紹介します。
*機密保持のため、若干抽象的な表現になっている部分があります。

1)データの可視化・前処理とは?

データ分析のプロジェクトの進め方においてデータ理解という項目がありました。その中でまず最初に行うことは「データの可視化」です。これは「そんなの当然」と思う人も多いかもしれません。しかし、侮れないことであり、データ分析の過程においては何度も何度も行う事になります。極端な話難しい統計の用語の話をするよりもデータを可視化してクライアントに伝える方が、実際に役に立つ事があります。例えばですが以下のグラフを見るだけでもわかる事はあります。

ロット番号が大きくなるにつれて、出力状況の数字が下がってきています。こういったものをダウントレンドと言います。これだけでも最近のロットは出力が下がってきていると言えますし、たまに異常値が発生する事もグラフでわかります。

別の例で季節性に関してはゴールデンウイークに観光客が多い、夏になると温度が一定しないといった季節的な要因もあります。これぐらいならばExcelベースでも十分可視化は可能です。データ分析を行う前に一度可視化をする事が非常に大事です。

またグラフも見せ方も重要であり、以下のようなグラフはよく使われます。

折れ線グラフ:横に時間、縦にデータ量を表示する軸のグラフであり、時間とデータを並べて線で結んだグラフになります。データの変化が線の傾きとして可視化できます。具体的な例としては日々の生産状況の把握等になります。上のグラフが折れ線グラフになります。

棒グラフ:横にデータの属性(ロット番号・商品名など)、縦にデータ量(成績)を表示する軸を設定し、データの属性を棒の長さで可視化します。棒の長さでデータ間の比較が直観的に可能となります。具体例としては生産部門別の稼働率等になります。

円グラフ:円全体を全体量としたうえで、各部分が全体に占める割合を扇型の大きさで表します。扇型が大きければ、割合が大きいと理解できます。具体例としては不良品の理由割合になります。例えば以下のようなグラフになり、何が割合的に多いのかがわかります。

散布図:直交する座標軸のそれぞれに相関を調べたいデータ量を表す軸を設定し、2つのデータの組を座標の点として記していきます。記した点の分布がまばらであれば2つのデータの間には関連性がなく、右肩上がりあるいは右肩下がりならば関連性があると判断します。具体例としては、温度と品質等の関係を確認するになります。例えば以下のようなグラフだと温度と出力の正の関係があると考えます。

じょうごグラフ:じょうごグラフでは、各プロセス内の複数のステージ間で値が表示されます。具体例としては、じょうごグラフを使用して、各工程による不良品発生率を把握する事ができます。例えば以下のようなグラフだと工程毎の良品の数を可視化していますが、工程Dにおいては不良品が多く出ている事がわかります。

ここでは可視化というのをグラフ化ということで説明しましたが、もちろん生データをみるということも可視化になります。製造業ではないですが、リテールデータなどでも欠損があることはままあります。例えば購入データに商品のJANコード入っていない場合などままありますが、これはバーコードが読めなくて手打ちしたなどもあり得ます。この場合商品名からJANコードを埋めるような前処理が必要です。

可視化するには変数が多すぎる場合、見通しを良くするするために、重要なデータは何かなど検討することも重要な前処理です。

2)製造業での可視化・分析の活用事例1

業種:鉄鋼メーカー
従業員数:非公開
活用ポイント:可視化なしでの失敗例

この話が私の所に来た時は社内でも「燃えている案件」、炎上案件としてちらほら聞いていた。同僚のN氏曰く、「またあの案件検収でOKもらえず、遅延したらしい。プロジェクトマネージャーもコーディングしているらしい。だいたいオフショアなのに」。

ここまで聞くと重圧がかかります。因みにオフショアは、海外に開発をお願いする事です。勿論海外の場合のため、遠隔での指示及び文化の違いがあるため当然ながら、密にコミュニケーション・管理が必要になります。プロジェクトマネージャーがコーディングをしているという事は大丈夫なのかなという疑問が沸々と湧いてきます。

また、最新のディープラーニングを自動でやってくれるツールを用いた案件とはちらっと聞いていました。そこでとりあえず私もアサインされ、一度話を聞きに行くとクライアントの要求水準が高く、まだまだ深層学習では精度が出ずに改善を継続している状況でした。
更に話を聞くと自動で深層学習のツールがやってくれる範囲では精度が出ないと言っているが、「自動でやってくれる」という事でデータの確認は殆どしていないという状況で、それならば一度確認をした方が良いという事でしてみました。

今回は音声のデータですが、確認すると音声に話声やぶつかったりする異音が混じっており、どうやらいろいろなデータが入っているために上手く学習ができないという状況のようでした。人の声やドアが閉まる音など、実際に検出したい部品がぶつかる音をそれらの音と分離する異音除去を行いました。

確かに海外のエンジニアでは何が異音なのかが判断しにくいところがありますし、プロジェクトマネージャーのミスリーディングが原因です。とりあえず自動でやるというのは確かに便利ですが、「データを見る」という基本的なステップが抜けていて上手く分析がいかなかったという事になります。

3)製造業での可視化の活用事例2

業種:食品メーカー
従業員数:非公開
活用ポイント:可視化に困った時の解決例

この案件の相談を受けたときは、変数がサンプルに対して多すぎるというのが問題でした。データをもらった時に驚いたのは、項目は約2000に対してサンプル数は約1000という項目の方が多いデータという事でした。

1つの製品が出来上がるまでに複数の工程があります。食品の購入元からの原料に関するデータ、そして自社での原料の検査データ、洗いや切断したときの設定値、ソテーやボイルをしていく際の温度・圧力・電流・加熱時間・重量データ、更に調理釜に調味液原料を計量して投入していく際のそれぞれの量・混合・煮込み・重量等の加熱調理のデータ、そして品質検査をしてからレトルト等への充填する際の圧力・シール機等のチェックをし、データを…という風に各工程での数値が存在しています。確かにこれだけあれば、何が原因なのかがわからないは仕方ないと思います。

そのためこの項目の中から基準値を外れるような時の、要因を特定したいという課題でした。当然項目が2000もあるため可視化もしきれません。各変数の組み合わせを見るとしても2000*1999/2= 1999000パターンあるため正直さっぱりというのが現状でした。そこでこのような時にやるのが先に統計解析の手法になります。「変数重要度」という「変数に意味があるか」を判定する考え方があり実施しました。

そして重要度が高いと判断された変数が、10もなかったので、この変数のみついて重要度を可視化するというステップになります。するとだいたい上手く可視化する事で何が効いているかを判断する事が可能になってきます。このような変数が多すぎて見切れないというパターンは、データ可視化→データ分析のステップではなくて、逆の流れであるデータ分析→データ可視化をするという手もあります。

コラムへのお問い合わせ

・オムロンエフエーストア編者から
製造でのデータサイエンス応用って難しいと思われませんか?事例が少なく、数式・数学・各種手法が難しい、費用対効果がわからない、正答率が高くないと実用にならない、などハードルは高いです。
エフエーストアでは製造現場へのデータサイエンス活用に関して専門家に依頼、ウェブセミナを開始します。できるだけ事例紹介を多くしてヒントになる、かつ一方通行的内容にならないよう各回で質問をお受けしてFAQとして回答を掲載します。FAQ形式として、回答に会社名、個人名等は記載されません。またご質問が質問のあった次回以降にとりあげる内容の場合FAQには非掲載にさせていただきます。本セミナのご質問は、各回のお問い合わせフォームより行ってください。エフエーストアフリーダイヤルお客様相談室フリーダイヤルでは受け付けておりません。