2016年8月8日月曜日

データサイエンスは流行なのか?

データサイエンスやビッグデータが流行りだした頃は正直、疑いの目をもっていた。最近は、色々と現場で分析したり話を聞いているうちに、単なる流行ではなく、ますます必要になっている領域になっています。年々、引き合いも多くなってくる(笑)。特にビジネスの現場で使ってきた人は重宝される傾向にあるようです。単に数理モデルを作るだけじゃなくて、データサイエンスで重要なのは予測因子をビジネス現場でコントロールできるものに設定しないとあんまり意味がないってことですね。いくら予測精度が高くても、企業や現場側が頑張ってその因子を変えることができなければ、単なる数字のお遊びになってしまう。「日経平均や色んなマクロ指標を使って相関があり、予測精度が高いモデルを作成できました!」って言われても、「じゃあそれをどうやって変えればいいの?」ってなりますから。でっかい金融機関が取引をしてその市場にインパクトを与えられるってことも可能でしょう。一方、ほんとんどのメーカーや企業とかはそんなのできないので。あ、あと予測精度計算の時も、テストデータとかとらずにやっているモデルも多々みるので気を付けましょう。

どっかの本にも書いてあったことで、データ分析をする企業には色々と段階があります。最先端の高度な分析はグーグルとかアマゾンとかやっている一方、ほとんどの企業は「重回帰やロジスティック回帰分析って何?」とかというレベルです。なので、予測モデルを作って正解率、適合率うんぬんいっているとついてこれない人がほとんどです。データ分析している人たちはその辺も意識して、説明しないと他の人たちがついてこれなくなる。データ分析ブームで回帰分析の本もたくさんでてきていますので、それくらいはわかる方たちが増えてきましたが、因果と相関の違いがわかっていない人も多々います。

それ以前として、まずは自分の企業がやってきたことをちゃんとデータ化・可視化していきましょうって段階の企業もありますし、データを貯めてどうすりゃいいのとか、そのデータをなんとか使いたいって企業もありますけど、なんのために分析をするのかわかっていないと、無駄な投資になりますので。こういったことも数年前に出版された本に色々と書いてあるんだけど、まだまだ浸透していないってことですね。

あと、必要以上に数字をこねくりまわすのも好きじゃないですし、よくないです。数字でみせるとそれっぽくみえちゃうので、そういった悪習をデータサイエンスは一掃しなければいけません。

0 件のコメント:

コメントを投稿

リモートワークについて

また久しぶりにブログを書きます。最近はリモートワークで、通勤時間が減ったことにより、より時間が有効活用できるようになったので、また読んだ本のアウトプットをする機会をまた作っていこうと思います。 3月ごろからずっとリモートワークをやってきており、はじめは慣れない部分もあり、効率...