コラム:データプレパレーション

データ活用の手前の工程を大幅に改善するデータプレパレーション

データ活用の手前の工程を大幅に改善するデータプレパレーション

データプレパレーションというキーワードをご存知でしょうか?ビッグデータやAI、BIなどの活用が広がっていますが、AI、BIを活用するためにはデータの事前準備が大事です。この事前準備作業を効率化するのがデータプレパレーションです。今回はデータプレパレーション活用のポイントや当社のデータプレパレーションツール、『データプレップ』をご紹介します。

第1章:データ活用業務の80%は事前準備?データプレパレーションの重要性

セルフ型BI(Business Intelligence)、AI(Artificial Intelligence)ツールが次々に世に出てきており、徐々に活用が広がっています。こうしたBIツール、AIツールは、過去の一部のエンジニアしか使えないような難解なものではなくなり、使い方さえ覚えてしまえば、一般のビジネスユーザーでも比較的容易に活用することができます。

社内に存在する様々なデータを可視化、ビジュアライズし、現状を把握したり、データから課題を導き出すのに非常に有効なツールがBI、データを元に未来を予測したり、確率を導き出したりするAI・マシンラーニング。どちらも有効活用することで、ビジネスにおける意思決定スピードを格段に上げるといわれています。

しかし、BIやAIにデータを投入するためには、入れるデータをきれいに加工・整形しておく必要があります。その作業が『データプレパレーション』です。実はその工程がかなり面倒で、ある調査によるとデータサイエンティストの業務の80%はデータ準備(データプレパレーション)であると言われています。

第2章:データプレパレーションはなぜ面倒なのか?

手元のデータを加工・整形してBIやAIに投入するためのデータを作成するデータプレパレーションですが、「言うは易し、行うは難し」の作業です。以下にその理由を例示します。皆様の社内データもこんな風になっていないでしょうか?

カラム名が統一されていない複数のデータ

あるデータに年齢というカラムがあり、他のデータでは歳というカラム名になっていて、どちらにも同じように年齢データが入っているが、カラム名が違うので、カラム名をキーにした紐付けができない。

カラム名が統一されていない複数のデータ

カラム内の値の記入方法が異なる

上記同様、年齢を例にしてみましょう。あるデータには25歳、32歳、47歳など、実際の年齢が入っている。もう一方のデータには20代、30代、40代と年代で記載されており、そのまま統合できない。

カラム内の値の記入方法が異なる

カラムが複数に分かれている

住所を記載しているカラムがあり、あるデータでは「東京都千代田区神田司町2-10-8」のように1カラムにすべて記載、別のデータでは「東京都」「千代田区」「神田司町」などのように、都道府県・市区町村などでカラムが分割されている

カラムが複数に分かれている

データが一意になっていない

例えばECサイトの注文データのようなものの場合、注文者(=顧客)のIDは一つでも、そのユーザーが何度も買い物をしたり、いくつもの商品を購入したりしていると、注文レコードはすべて分割されているケースがほとんどです。そうなると、顧客IDごとで合計購入金額をひとまとめにし、ロイヤルカスタマーを抽出することや、RFM分析の元になるデータを作るのは困難です。

データが一意になっていない

第3章:今までのデータプレパレーション方法

上記のような例はほんの一部です。他にも持っているデータをそのままBIやAIで使えないというケースは多々あります。では、どうやってそれを解決するのでしょうか?

1:SQLやPythonなどの言語を使ってデータプレパレーションを行う

持っているデータに対してSQLやPythonなどのプログラミング言語を使って処理する方法があります。こうした統計やデータ処理シーンで使われるプログラミング言語を自由に扱えるエンジニアにとってはそれほどハードルの高いものではないかもしれません。しかし、逆に言うとこうした言語を覚えなければ処理できないという課題があります。

2:ETLツールを活用してデータプレパレーションを行う

基幹システムの移行や他システムとの連携開発などを行う際、各システム間のデータを移行するために使われたのがETLです(ETLは「Extract(抽出)」「Transform (変換、加工)」「Load (書き出し)」の略)。ETLツールにはコーディング(プログラム言語を使って記述すること)が必要なものと、ノンコーディング(プログラミング不要)のものがあります。コーディングが必要な場合、やはりプログラミング言語の記述ができることが必須です。また、ノンコーディング型の場合、多くのETLツールではデータの加工手順をフローチャートのようにGUIベースで記述する必要があります。フローチャートを記述するには、どのデータにどんな内容がどう入っているかを事前に把握する必要があり、加工するすべてのデータの中身に精通している必要があります。

第4章:これからのデータプレパレーションに求められるもの

第3章でご紹介した二つの方法は、どちらもいわゆるエンジニアのためのデータプレパレーション手法と言えます。しかし、昨今盛り上がっているBIやAIを活用するのは主にビジネスユーザー部門です。経営企画やマーケティング部門、営業部門が自社に蓄積されたデータを活用して、戦略立案や課題抽出、意思決定の補助を行うために活用しているケースがほとんどです。しかし、こうしたビジネス部門にはSQLやPythonなどの開発言語を扱える人材やETLツールに精通している人材はほとんどいません。こうした状況でBIやAIを活用するためには、常にビジネス部門から情報システム部門へデータ抽出を依頼し、システム部門が分析用データの元を作成するというやりとりが発生します。月次レポートなどの場合はそれでも何とかなるかもしれませんが、やはりスピーディにビジネスのPDCAを回すためには、即座に必要なデータを取り出し、活用できる環境を作らなくてはいけません。そのために必要になるのがビジネス現場で使えるデータプレパレーションツールなのです。

第5章:データドックのデータプレパレーションツール『データプレップ』

データドックでは、「ビジネスユーザーでも簡単に操作できる」「加工ルールが可視化される」「一度作った加工ルールを再利用できる」「データへのアクセス権や編集権などのルール設定ができる」「大きな初期投資が不要」という観点でサービス開発を行い、2020年3月にSaaS型のデータプレパレーションツール『データプレップ』をリリースしました。ここからは画面を見ながら基本的な機能をご紹介します。

①データインポート

  • データインポート
  • データインポート

ライブラリという画面にデータをインポートします。インポートファイルの形式はCSV、XLS、JSON、XMLなど複数フォーマットに対応しています。また、APIコネクターを使って他システムと連携させることも可能です。

②各カラム内のデータ確認

  • 各カラム内のデータ確認

各カラムの中の値を確認し、同じ値がどのくらい入っているかなども簡単に確認できます。また、カラム内の値の中にスペースなどが含まれていないか、数値形式のデータが入っているカラムの最大値と最小値なども把握できます。

③カラムごとのデータの加工(1)スペースの削除

  • カラムごとのデータの加工(1)スペースの削除

値の最初や最後についている場合は、前後の空白を削除、文字列内にスペースがあれば置換機能を使って不要なスペースを削除します。

④カラムごとのデータの加工(2)データの分割

  • カラムごとのデータの加工(2)データの分割
ひとつのカラムに識別子が特定できる形で複数の情報が入っている場合は、その識別子をキーにしてデータを分割することが可能です。

⑤カラムごとのデータの加工(3)日本語表記揺れの改修

  • カラムごとのデータの加工(3)日本語表記揺れの改修

社名などの入っているカラムでは、株式会社、(株)、㈱、記載なしなどの表記揺れが発生していることが少なくありません。正規表現のマスターデータなどがあればそれとマッチさせて表記を統一することももちろん可能ですが、日本語で表記された値をクラスタリングする機能があり、この機能を使うことで概ねの社名表記揺れは回収できます。

⑥データの横結合

  • データの横結合

元データに対して、データを横に追加・付与するには、通常同一のカラム名をキーにしますが、本ツールではカラム名が一致しなくても、キーになるカラムをシステムがデータの中身を見ながらサジェストしてくれます。また、1カラム対2カラム、Nカラム:Nカラムなど複数のカラムをつなげてみることでキーになる軸を探し出すことも可能です。結合させる際にも、全データを残す、元データは全部残し、つないだデータは結合させられるものだけ残すなど、1クリックでデータ作成方法を選択できます。

⑦データの縦結合

  • データの縦結合

同じ形式のデータであれば簡単に建てに結合することが可能です。ただ、上記の③~⑥の作業をした後に縦結合しようとすると、元データに対して行った処理が適用されていませんので、空白カラムとして認識されたりします。他のツールでは通常縦結合しようとするデータに対しても同じ処理を行った後に結合処理を行いますが、本ツールではいったん無視して結合します。

⑧処理順番を入れ替えて、縦結合したデータに全操作を適用させる
  • 処理順番を入れ替えて、縦結合したデータに全操作を適用させる

ステップというコマンドを開くと、今まで行った処理がすべて表示されます。その処理手順を編集機能を使って入れ替えることができます。⑦で行った縦結合を最初に実施したように順番を入れ替えることで③~⑥で実施した処理が後から追加したデータにも適用されます。

⑨データの公開

出来上がったデータをライブラリに公開し、そこからエクスポートすることで、加工済みデータを手に入れることができます。

第6章:まとめ

このように、実際に加工したいデータを見ながら、様々な処理がGUIベースで行え、かつ、その処理をしたら値がどう変化するかを画面で確認しながらデータ加工ができるツールはたくさんあるわけではありません。こうしたデータプレパレーション専用ツールを使うことで、データ活用がさらに進んでいくと思います。 次回以降、業種や業態による活用方法などもご紹介していきます。お楽しみに。

Contact

データセンター見学のお申し込み、サービス詳細や価格、資料請求など
お気軽にお問い合わせください