一般に人工知能というと機械学習も含めるが,ここでは深層学習(Deep Learning)に関してのよもやまを述べます.もう少し限定するとComputer Visionで画像関連です。

画像認識(Image Recognition)

画像の内容は何か?を答えさせるもの。いわゆる、この画像に写っているのは犬ですか?猫ですか?を答える。手法としてCNNとTransformer に分けられるか?

物体検出

物体の位置と内容を答えさせる。「領域提案」と「クラス分類」が肝。それを1段階で行うか2段階で行うかで手法が分けられる。

上記のような方法もあるが,画像を分割し,それに対して画像認識を適用する方法も類似する?ので,それらの具体的差異に関してもやっとするところです.

GAN

原著
複数の人工知能モデル(ネットワーク)、競いあわせて性能を高める。具体的には,生成器(Generator)と識別器(Discriminator).
画像生成では,拡散モデルもある.

pix2pix

原著
損失関数について

CycleGAN

原著
ウマとシマウマの色彩変換で有名.それぞれ1000枚程度の学習データ.

拡散モデル

原著
text2image

Stable Diffusion

github

DALL-E2

github


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS