一般に人工知能というと機械学習も含めるが,ここでは深層学習(Deep Learning)に関してのよもやまを述べます.もう少し限定するとComputer Visionで画像関連です。
画像の内容を答えさせるもの。いわゆる、この画像に写っているのは犬ですか?猫ですか?を答える。手法としてCNNとTransformer に分けられるか?
物体の位置と内容を答えさせる。領域提案とクラス分類が肝。