#author("2023-12-12T12:23:14+09:00","default:ait-survey","ait-survey") #author("2025-05-03T11:30:52+09:00","default:ait-survey","ait-survey") 一般に人工知能というと機械学習も含めるが,ここでは深層学習(Deep Learning)に関してのよもやまを述べます.もう少し限定するとComputer Visionで画像関連です。~ *画像認識(Image Recognition) [#n4abc777] 画像の内容は何か?を答えさせるもの。いわゆる、この画像に写っているのは犬ですか?猫ですか?を答える。手法としてCNNとTransformer に分けられるか? 画像の内容は何か?を答えさせるもの。いわゆる、この画像に写っているのは犬ですか?猫ですか?を答える。手法としてCNNとTransformer に分けられるのだろう. -CNN:認識対象物と認識しやすい特徴を局所的に抽出しながら(重みとバイアスとして残しながら)次元を削減していき,最終的に認識対象の確信度を出力する(画像内の相対的位置関係は不変).例えば,[[EfficientNet:https://arxiv.org/abs/1905.11946#:~:text=,can%20lead%20to%20better%20performance]]. -Transformer:画像をパズル化し,データベース検索のような仕組み(クエリ,キュー,バリュー)を利用した自己注意機構(Self-Attention)を基軸に,画像の内容を読み解く.応用にStable Diffusionがある. *物体検出 [#ead94902] 物体の位置と内容を答えさせる。「領域提案」と「クラス分類」が肝。それを1段階で行うか2段階で行うかで手法が分けられる。~ -1段階:YOLO,SSD -2段階:R-CNN系(例えば,[[FasterR-CNN:https://arxiv.org/abs/1506.01497#:~:text=%23%20%E3%80%900%E2%80%A0%5B1506.01497%5D%20Faster%20R,algorithms%20to%20hypothesize%20object%20locations]](バウンディングボックス)と[[Mask R-CNN:https://arxiv.org/abs/1703.06870#:~:text=%23%20%E3%80%900%E2%80%A0%5B1703.06870%5D%20Mask%20R,for%20predicting%20an%20object]](セグメンテーション))~ 上記のような方法もあるが,画像を分割し,それに対して画像認識を適用する方法も類似する?ので,それらの具体的差異に関してもやっとするところです. *GAN [#m0e356f1] [[原著:https://arxiv.org/abs/1406.2661]]~ 複数の人工知能モデル(ネットワーク)、競いあわせて性能を高める。具体的には,生成器(Generator)と識別器(Discriminator).~ 画像生成では,拡散モデルもある. **pix2pix [#c8d44b04] [[原著:https://arxiv.org/abs/1611.07004#:~:text=%23%20%E3%80%900%E2%80%A0%5B1611.07004%5D%20Image,image%20translation%20problems]]~ [[損失関数について:https://chat.openai.com/share/a15cca16-0d95-4d9a-bfba-d3a510551264]] **CycleGAN [#d600cdb9] [[原著:https://arxiv.org/abs/1703.10593#:~:text=%23%20%E3%80%900%E2%80%A0%5B1703.10593%5D%20Unpaired%20Image,set%20of%20aligned%20image%20pairs]]~ ウマとシマウマの色彩変換で有名.それぞれ1000枚程度の学習データ. *拡散モデル [#i3c2881a] [[原著:https://arxiv.org/abs/2112.10752]]~ text2image **Stable Diffusion [#cf2802b3] [[github:https://github.com/Stability-AI/stablediffusion]] **DALL-E2 [#b607aa0d] [[github:https://github.com/lucidrains/DALLE2-pytorch?tab=readme-ov-file]]