一般に人工知能というと機械学習も含めるが,ここでは深層学習(Deep Learning)に関してのよもやまを述べます.もう少し限定するとComputer Visionで画像関連です。
画像の内容を答えさせるもの。いわゆる、この画像に写っているのは犬ですか?猫ですか?を答える。手法としてCNNとTransformer に分けられるか?
物体の位置と内容を答えさせる。「領域提案」と「クラス分類」が肝。それを1段階で行うか2段階で行うかで手法が分けられる。
複数の人工知能モデル(ネットワーク)、競いあわせて性能を高める。具体的には,生成器(Generator)と識別器(Discriminator).pix2pixの学習内容