人工知能の履歴(No.9) - PukiWiki

[ トップ ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

一般に人工知能というと機械学習も含めるが，ここでは深層学習(Deep Learning)に関してのよもやまを述べます．もう少し限定するとComputer Visionで画像関連です。

画像認識†

画像の内容を答えさせるもの。いわゆる、この画像に写っているのは犬ですか？猫ですか？を答える。手法としてCNNとTransformer に分けられるか？

CNN:認識対象物の局所的な特徴を抽出しながら（重みとバイアスとして残しながら）次元を削減していき，最終的に認識対象の確信度を出力する（画像内の相対的位置関係は不変）．
Transformer:画像をパズル化し，データベース検索のような仕組み（クエリ，キュー，バリュー）を利用した自己注意機構(Self-Attention)を基軸に，画像の内容を読み解く．

物体検出†

物体の位置と内容を答えさせる。「領域提案」と「クラス分類」が肝。それを1段階で行うか2段階で行うかで手法が分けられる。

1段階:YOLO,SSD
2段階:R-CNN系

GAN†

複数の人工知能モデル（ネットワーク）、競いあわせて性能を高める。具体的には，生成器（Generator）と識別器（Discriminator）．pix2pixの学習内容