セミコンポータル
半導体・FPD・液晶・製造装置・材料・設計のポータルサイト

AIソフトがLSI設計データの機密漏洩事件を解決

|

ある半導体LSI会社の社員Aが、他の半導体企業に転職した時に、実は元の会社のLSI設計データを持ち出していたことがわかった。台湾で起きた、この機密漏洩事件を突き止めたAI(人工知能)ソフトウエアが実は日本製だった。リーガルテックAIを開発してきた日本のFRONTEO(フロンテオ)社は台湾当局から依頼を受け、LSI設計データのコード解析にAIを活用、事件解決に寄与した。

2003年創業のFRONTEO社は、国際訴訟問題の解決に電子データの調査と分析を行ってきた。2012年には日本語の自然言語処理に使うAIを開発した。KIBITと名付けられたAIエンジンは、少ない学習データで分析できることを特長とする。例えば、訴訟などで証拠を選別する場合にKIBITで候補を絞り込んだ後に、専門家がみてさらに重要なものを選ぶ、という作業を行う。このため、専門家の負担をゼロにするのではなく軽くするわけだが、質の高い結果を得ることができる。

KIBITはいわゆるディープラーニングや機械学習とは少し違う。これがFRONTEO社で生まれたのは、国際訴訟問題に取り組んできたことが大きい。国際訴訟の証拠開示手続きでは、限られた時間内で大量のテキストデータの中から証拠となるデータを、弁護士の判断基準に沿って、抽出するという膨大な作業が求められる。そこで、弁護士の判断基準を学習して、見たいデータを見つけやすく、不要なデータを見なくて済むようなシステムを開発しようとしてきた。これがKIBITである。

KIBITでは、関連性の高いメールやファイルのテキストを学習し、関連性の低いメールやテキストも学習しておく(図1)。ここに問題となるテキストを投入すると、KIBITが関連性の高い順にスコアを付けていく。


KIBITの特徴

図1 FRONTEO社が開発したAIエンジンKIBIT テキストデータの解析に強い 出典:FRONTEO

KIBITはキーワードのような単語だけではなく、文章で使われている文字の構成、つまり文脈全体をチェックする。しかも文書ごとに、例えばA4の紙1枚や電子メール1通の単位で振り分けて、チェックする。

企業同士の談合をという不正行為を発見する調査では、証拠を探す電子メールの例を図2に示そう。「飲み」という言葉をメールで見つけても、キーワード検索では、談合を疑うメールと普通のメールを区別できない。しかし、「前回から」という言葉があれば、定期的に会っていることを示している。さらに「個室の居酒屋」という言葉は、秘密の会合を意味している。このため、怪しい二つの言葉が入っている「飲み」というテキストと、「飲み」しか入っていないテキストだと、疑わしさが異なる。


困難な言語データの解析

図2 言語データの解析を見つけるために独自のアルゴリズムで重みを付ける 出典:FRONTEO


KIBITでは、Landscapingと呼ぶ独自のアルゴリズムを開発し、このアルゴリズムに従って、それぞれの言葉に点数(スコア)を付ける。図2の例では、「個室」の重みは0.115、「飲み」の重みは0.0017、「居酒屋」の重みは0.081となる。こういったテキストを1枚のA4サイズの紙にまとめておく。調べなければならないこういったテキストが大量に存在する。例えばこのテキストを1万枚重ねると1メートルほどの高さになるほど膨大な量になるが、KIBITで1万枚の大量の文書のテキストを解析すると3分半で終わるという。解析したA4の紙にも、「見つけたい」という目的で学習した文章に似ている順に高いスコアをつけて並べ替える。このようにして、見つけたい、すなわち怪しいテキストの紙ほど高い点数で表される。

KIBITの教師データは、さまざまな分野の専門家や経験者の暗黙知を元に、メールや、日報、お客様の声などの文書を選び、「見つけたい」教師データを作成する。FRONTEOは学習させるためのソリューションソフトウエア製品として、デジタルフォレンジックソリューション「Lit I View XAMINER」、eディスカバリ支援システム「Li I View E-DISCOVERY」、電子メール自動監査システム「KIBIT Email Auditor」の3製品を提供している。

今回、退職した会社のオリジナルなLSI設計コードデータを調べ、「Lit I View XAMINER」に搭載されているKIBITにオリジナルのLSI設計コードデータを教師データとして学習させ、容疑者Aが所有していた転職先の膨大なLSIデータセットに対してスコアリングを実施した。KIBITのスコアリング結果の精度を確認したところ、スコアリング上位にオリジナルのコードデータと内容が酷似するコードデータが含まれていた。

今回証拠となったコードを探すのに使ったデジタルフォレンジックソリューション「Lit I View XAMINER」のフォレンジックとは「科学捜査的な」というニュアンスを含む言葉である。KIBITは日本語のテキスト解析に使ってきたが、英語は言うまでもなく、中国や韓国語のテキスト解析にも使えるという。LSI設計言語は英語をベースとしているため、KIBITは見つけることができた。KIBITは設計言語の特長が元の企業だけなのかどうかを学習していたため、転職先のデータでもスコアが高めに出たことで、元の企業のデータから盗まれた可能性が高いことを示した。

FRONTEOは、日本だけではなく、米国、韓国、台湾にも事務所を置き、事業を展開している。

(2019/06/25)

月別アーカイブ