人工知能の履歴(No.10)

一般に人工知能というと機械学習も含めるが，ここでは深層学習(Deep Learning)に関してのよもやまを述べます．もう少し限定するとComputer Visionで画像関連です。

画像認識†

画像の内容を答えさせるもの。いわゆる、この画像に写っているのは犬ですか？猫ですか？を答える。手法としてCNNとTransformer に分けられるか？

CNN:認識対象物の局所的な特徴を抽出しながら（重みとバイアスとして残しながら）次元を削減していき，最終的に認識対象の確信度を出力する（画像内の相対的位置関係は不変）．
Transformer:画像をパズル化し，データベース検索のような仕組み（クエリ，キュー，バリュー）を利用した自己注意機構(Self-Attention)を基軸に，画像の内容を読み解く．