Convergence Lab.株式会社 代表取締役 CEOの木村です。

機械学習システムを運用するためには、性能のモニタリングが欠かせません。今回は、Human in the Loop 機械学習システムで、機械学習システムのモニタリングと追加学習を行う方法について記載します。

  

 

Human in the Loop 機械学習システム 

Human in the Loop (HITL)機械学習システムは、機械学習の運用システムの中に人間を介在させる仕組みです。機械学習システムは100%の精度がでないため、人間を介在させてエラーの訂正や、機械学習システムの精度の向上を行う必要があります。JBPressへの寄稿記事「AIプロジェクトは外注すればするほど失敗する」にも少しだけ触れましたね。一般的な HITLは以下のような枠組みを持ちます。

 

図 HITLシステムの枠組み

 

HITLシステムは、機械学習システムと予測結果を利用するもう一つのシステムと、人間からなります。予測結果を利用するシステムは、機械学習の予測結果を利用してなんらかのサービスを提供します。人間は、機械学習の予測結果に対して、エラー訂正を行って、予測結果を利用しするシステムにデータを渡すことで、精度が100%ではない機械学習システムの動作をサポートします。また、誤認識結果を機械学習システムにフィードバックすることで、機械学習システムの性能を向上させることができます。

Human in the Loop 機械学習システムのモニタリングと追加学習

HITLは近年、注目度が上がっている機械学習の枠組みです。機械学習のトップ国際会議の一つである ICML 2020でも Human in the Loopをトピックとするワークショップ HILL が開かれました。今回はその中から、USRAとNASAの著者による、Adwait Sahasrabhojanee, et.al, "Active Learning Strategies to Reduce Anomaly Detection False Alarm Rates", HILL 2020. を紹介したいと思います。

この論文は、上のHITLの枠組みの図で言うと、人間による機械学習システムへのフィードバックに注目した論文です。これ自身は、無人航空機の異常検知を行う機械学習システムのアクティブラーニングを行う論文です。アクティブラーニングとは、日本語では能動学習と訳されます。機械学習システムを本番運用しながら追加学習を行うことで精度を向上させていく仕組みのことです。これは、人間を介在させて、効果的にアクティブラーニングを行う方法を示したものです。早速内容をみてみましょう。

本論文で示されている、アクティブラーニングの仕組みは以下のような流れになります。実際はもう少し複雑ですが、簡単のためエッセンスのみを示します。

  1. 機械学習による予測結果のうち、 確信度の高いものをそのまま次の学習データとします
  2. 機械学習による予測結果のうち、確信度の低いものを人間によるチェックに回し、ラベルを訂正します。
  3. 修正された学習データを再学習します

基本的にはこれだけです。

簡単な例で実装してみました。コードは、https://github.com/Convergence-Lab-Inc/RADFAR/blob/master/radfar.ipynb にあります。論文の例では、完全な教師なしから始められるように工夫してありますが、今回の実装では、初期ラベリングとして、10サンプルだけ人間がラベリングすることを想定しています。対象データは KDD cup 99のネットワーク不正侵入異常検知データです。今回は10万データのみをランダムに選んで実験しています。精度はROC AUCです。

以下に結果のみを示します。

0回目 96.309%

1回目 99.699%, ラベリングしたデータ数 111

2回目 99.796%, ラベリングしたデータ数 212

3回目 99.873% ラベリングしたデータ数 313​

0回目の結果は10個の初期ラベリングのみで、10万サンプルを予測した結果です。KDD cup 99自体が簡単なデータのため、この時点でROC  AUCが96%あります。 1回目から3回目は、前のステップで学習された機械学習システムの予測結果の確信度の低いサンプルをランダムにいくつかラベリングしなおしています。今回の例では、いずれの反復でも101サンプルのデータが新たにラベリングされています。この反復を1回行うだけで、 ROC AUCは 約99.7% に向上しています。また、繰り返すごとに精度が向上していることが見て取れます。

10万サンプルのデータに対し、人間によるラベリングを111サンプルおこなうだけで、99%を超える精度が得られました。この仕組みによるラベリングの効果が見て取れます。

まとめ

今回は非常に簡単な例ではありますが、HITLを用いたアクティブラーニングの論文を紹介しました。実際にアルゴリズムを実装し、高い効果があることを確認しました。

HITLによる機械学習システムに興味がありましたら、ぜひ、Convergence Lab.へお問い合わせください。

 

このエントリーをはてなブックマークに追加
 

お問い合わせ

 

Pin It

Related Articles/Posts