画像認識AI(分類:Classification)のアーキテクチャの種類と違いについて
TECHNICAL INFORMATION
技術情報
2022.04.28
小型カメラ
画像認識AI(分類:Classification)のアーキテクチャの種類と違いについて
画像認識に関するAIは現在、分類(Classification)・物体検出(Object Detection)・セグメンテーション(Segmentation)の3種類があります。これらはAIで達成できるゴール地点(内容)によって分かれており、そこにいたるまでの過程(アーキテクチャ)は様々なものが存在しております。画像を学習する際に全く同じ画像データセットを用いても使用するアーキテクチャが異なると精度やゴールに達する(結果の出力)までの時間が異なってきます。
弊社ではカメラ側で画像認識AIを実行できるIDS社製NXTカメラを取り扱っております。NXTカメラでは分類(Classification)及び物体検出(Object Detection)を実行することができます。分類では、結果の出力の根拠となった画像領域を視覚化したヒートマップ(アテンションマップ)を表示することも可能です。本記事では分類のアーキテクチャにどのような種類があるか、ヒートマップ表示を行う場合のアーキテクチャとどのような違いがあるかを簡単にご紹介いたします。
NXTカメラにつきましてはこちらの記事でもご紹介しております。
・画像認識AI(物体検出:Object Detection)を簡単に実行(IDS社製 NXTカメラ)
分類のアーキテクチャの種類
分類(Classification)の代表的なアーキテクチャとしては以下のようなものがございます。
・AlexNet
・VGG
・GoogleNet
・ResNet
・DenseNet
・MobileNet
これらのアーキテクチャには、「畳み込み層」と呼ばれる画像から特徴を抽出する処理と「プーリング層」と呼ばれる特徴を残しながら画像サイズを小さくする処理が用いられています。畳み込み層やプーリング層の数、層の中で行われる処理の仕方、層同士のつながりといったところが、アーキテクチャごとに異なっております。
参考までに、これらのアーキテクチャの中でも構造がわかりやすいVGGのアーキテクチャ図をご紹介します。黒い四角の部分が畳み込み層、赤い四角がプーリング層に相当します。
https://qiita.com/mine820/items/1e49bca6d215ce88594a
ヒートマップ表示可能なアーキテクチャの種類
ヒートマップ(アテンションマップ)を表示するようなAIは「説明可能なAI(XAI:Explainable AI)」と呼ばれ、近年重要度を増しております。代表的なアーキテクチャとしては以下のようなものがございます。
・CAM
・Grad-CAM
・Grad-CAM++
・ScoreCAM
・Eigen-CAM
・Ablation-CAM
ざっくりとしたイメージではありますが、分類で使用されているようなアーキテクチャの畳み込み層やプーリング層を介して得られた特徴を元の画像サイズに復元するような形でヒートマップを得ます。より良いヒートマップを得るために、新しいアーキテクチャではヒートマップを得る際にノイズを除去するといった工夫も取り入れられております。
参考までに、特に有名なGrad-CAMのアーキテクチャ図をご紹介します。畳み込み層やプーリング層はCNNというブロックでまとめられております。
https://shunk031.me/paper-survey/summary/cv/Grad-CAM-Why-did-you-say-that
以上のように簡単ではありますが、分類のアーキテクチャにどのような種類があるか、ヒートマップ表示を行う場合のアーキテクチャとどのような違いがあるかをご紹介しました。IDS社のNXTカメラでは、IDS NXT lighthouseでトレーニングしたAIを使用することが可能です。どのようなアーキテクチャでトレーニングが行われているかはブラックボックスではありますが、今回ご紹介したようなAIのトレーニングを特別な知識なく実行することができますので、画像認識AIの使用を検討されていましたら是非お気軽にお問い合わせいただけたらと思います。
◆ティー・イー・エムではNXTカメラの無料紹介セミナーを開催しております。AIを実行するまでの一連の流れもご説明しておりますので、是非ご参加ください。詳細は以下のURLよりご覧ください。
https://www.tem-inc.co.jp/news/detail-137.php