深層ニューラルネットによる類似度評価の根拠を解釈する試み博士2年網野海 – 東京大学　応用昆虫学研究室　昆虫生態学研究グループ

深層ニューラルネット(Deep Neural Network, 以下DNN)は、とくに画像分類・物体検出などのタスクにおいて高い精度を発揮してきたが、類似度の評価においても有効であることが分かってきている。類似度評価は、関連画像検索や画質変化の定量化といった実用的側面以外に、生物における色彩パターンの違いを数値化する上でも役立つと予想されることから、DNNによる類似度評価は今後幅広い分野で活用されるに違いない。

しかしながら、DNNの抱える課題として“ブラックボックス性”が挙げられる。我々が知覚できないレベルの微少なノイズを加えるだけで、GoogLeNetを欺けてしまうという“敵対的サンプル”の事例は有名であり[1]、そのような誤判断の仕組みは我々の理解を超えている。つまり、DNNを実用化したり改善したりする際には、その判断根拠を知る手立てが必要になる。そこで、本セミナーではDNNによる類似度評価の根拠を可視化する試みがどのような発展を遂げてきたのか概観する。

Toliasら(2015)は、物体検出で用いられるようなスライディングウィンドウ形式の類似箇所検出を提案した[2]。本手法では、画像内の特定箇所に対する畳み込み演算により特徴ベクトルを出力し、比較対象の画像内から元画像の特徴ベクトルと出力の近い領域が探索される。すなわち、画像の間でどの箇所とどの箇所が類似対応しているのかを可視化できる。しかし本手法では、それらの対応箇所が、画像全体を比較した場合の類似度にどの程度寄与しているのかまでは分からない。

画像分類の判断根拠を可視化する技術であるClass Activatioin
Mapping(CAM)の登場(2015)は、類似度評価の視覚的解釈に対しても影響を与えた。CAMでは、最終畳み込み層からの出力のGrobal Average Pooling(GAP)※1がクラス分類に寄与する割合に応じて特徴マップを足し合わせ、ある特定のクラスとして分類されるのに重要な画像内領域がヒートマップで表現される[3]。Stylianouら(2019)はCAMの原理を利用し、元画像から得られる最終畳み込み層の特徴マップに対して、もう一枚の比較用の画像から同様に得た特徴マップのGAPを掛けて足し合わせることで、二枚の画像で類似度(= コサイン距離)の算出に寄与している箇所を表示した[4]。

しかし、GAP結果を利用するCAMには、GAP計算を用いないネットワークの説明には利用できないという課題がある。これに対してGrad-CAM(2019)では、特徴マップの各ピクセルがクラス分類の結果に寄与する大きさ(= 勾配, Gradient)を用いることで、GAPを用いないネットワークにおいても判断根拠の可視化が可能になった[5]。Chenら(2020)やBarkanら(2021)はGrad-CAMを応用し、Triplet
loss※2や画像間類似度(最終畳み込み層が出力すGAP間のコサイン距離)に対する特徴マップの勾配を足し合わせることで、類似度評価の可視化を行っており、より汎用性の高い手法であると言える[6, 7]。

ここまで見てきたように、近年の画像分類における視覚的解釈手法の原理は類似度評価に転用できる様子が伺える。現在、画像分類の視覚的解釈におけるState-of-the-ArtはGroup-CAMであり、注目領域の可視化においてGrad-CAMを凌ぐ精度を誇る[8]。Group-CAMを応用することで、類似度評価においてもさらに安定した視覚的解釈が可能になるかもしれない。

※1 各特徴マップの画像平均を求めて特徴ベクトルに変換すること。
※2 特徴ベクトルに基づく写像空間において、類似画像を集約し非類似画像を遠くに配置するのに用いられる損失関数。

References

[1] Goodfellow IJ, Shlens J, Szegedy C. 2015. Explaining and harnessing adversarial examples. Int Conf Learn Represent (ICLR).

[2] Tolias G, Sicre R, Jégou H. 2015. Particular object retrieval with integral max-pooling of CNN activations. Int Conf Learn Represent (ICLR).

[3] Zhou B, Khosla A, Lapedriza A, Oliva A, Torralba A. 2015. Learning deep features for discriminative localization. Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit.

[4] Stylianou A, Souvenir R, Pless R. 2019. Visualizing deep similarity networks. Proc IEEE Winter Conf Appl Comput Vision (WACV).

[5] Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. 2016. Grad-CAM: Visual explanations from deep networks via gradient-based localization. Int J Comput Vis.

[6] Chen L, Chen J, Hajimirsadeghi H, Mori G. 2020. Adapting Grad-CAM for embedding networks. Proc IEEE Winter Conf Appl Comput Vision, WACV.

[7] Barkan O, Armstrong O, Hertz A, Caciularu A, Katz O, Malkiel I, Koenigstein N. 2021. GAM: Explainable visual similarity and classification via Gradient Activation Maps. Int Conf Inf Knowl Manag Proc.

[8] Zhang Q, Rao L, Yang Y. 2021. Group-CAM: Group score-weighted visual explanations for deep convolutional networks. http://arxiv.org/abs/2103.13859.