<object id="eqgf9"></object>
      <big id="eqgf9"><em id="eqgf9"></em></big>

        <th id="eqgf9"></th>

          <center id="eqgf9"></center>
          1. 兩行代碼高效緩解Vision Transformer過擬合,美圖&國科大聯合提出正則化方法DropKey ...

            來源:科技快報網 | 時間:2023-04-10 14:10:19

            美圖影像研究院(MT Lab)與中國科學院大學突破性地提出正則化方法DropKey,用于緩解Vision Transformer中的過擬合問題。該方法通過在注意力計算階段隨機drop部分Key以鼓勵網絡捕獲目標對象的全局信息,從而避免了由過于聚焦局部信息所引發的模型偏置問題,繼而提升了基于Transformer的視覺類算法的精度。該論文已被計算機視覺三大頂會之一CVPR 2023接收。

            近期,基于Transformer的算法被廣泛應用于計算機視覺的各類任務中,但該類算法在訓練數據量較小時容易產生過擬合問題?,F有Vision Transformer通常直接引入CNN中常用的Dropout算法作為正則化器,其在注意力權重圖上進行隨機Drop并為不同深度的注意力層設置統一的drop概率。盡管Dropout十分簡單,但這種drop方式主要面臨三個主要問題。首先,在softmax歸一化后進行隨機Drop會打破注意力權重的概率分布并且無法對權重峰值進行懲罰,從而導致模型仍會過擬合于局部特定信息(如圖1)。其次,網絡深層中較大的Drop概率會導致高層語義信息缺失,而淺層中較小的drop概率會導致過擬合于底層細節特征,因此恒定的drop概率會導致訓練過程的不穩定。最后,CNN中常用的結構化drop方式在Vision Transformer上的有效性并不明朗。


            (相關資料圖)

            圖1 不同正則化器對注意力分布圖的影響

            美圖影像研究院(MT Lab)與中國科學院大學在CVPR 2023上發表了一篇文章,提出一種新穎且即插即用的正則化器DropKey,該正則化器可以有效緩解Vision Transformer中的過擬合問題。文章中對以下三個核心問題進行了研究:

            第一,在注意力層應該對什么信息執行Drop操作?與直接Drop注意力權重不同,該方法在計算注意力矩陣之前執行Drop操作,并將Key作為基礎Drop單元。該方法在理論上驗證了正則化器DropKey可以對高注意力區域進行懲罰并將注意力權值分配到其它感興趣的區域,從而增強模型對全局信息的捕獲能力。

            第二,如何設置Drop概率?與所有層共享同一個Drop概率相比,該論文提出了一種新穎的Drop概率設置方法,即隨著自注意力層的加深而逐漸衰減Drop概率值。

            第三,是否需要像CNN一樣進行結構化Drop操作?該方法嘗試了基于塊窗口和交叉窗口的結構化Drop方式,并發現這種技巧對于Vision Transformer來說并不重要。

            l 論文鏈接:https://arxiv.org/abs/2208.02646

            背景

            Vision Transformer(ViT)是近期計算機視覺模型中的新范式,它被廣泛地應用于圖像識別、圖像分割、人體關鍵點檢測和人物互相檢測等任務中。具體而言,ViT將圖片分割為固定數量的圖像塊,將每個圖像塊都視作一個基本單位,同時引入了多頭自注意力機制來提取包含相互關系的特征信息。但現有ViT類方法在小數據集上往往會出現過擬合問題,即僅使用目標局部特征來完成指定任務。

            為了克服以上問題,該論文提出了一種即插即拔、僅需要兩行代碼便可實現的正則化器DropKey用以緩解ViT類方法的過擬合問題。不同于已有的Dropout,DropKey將Key設置為drop對象并從理論和實驗上驗證了該改變可以對高注意力值部分進行懲罰,同時鼓勵模型更多關注與目標有關的其他圖像塊,有助于捕捉全局魯棒特征。此外,該論文還提出為不斷加深的注意力層設置遞減的drop概率,這可以避免模型過度擬合低級特征并同時保證有充足的高級特征以進行穩定的訓練。此外,該論文還通過實驗證明,結構化drop方法對ViT來說不是必要的。

            DropKey

            為了探究引發過擬合問題的本質原因,該研究首先將注意力機制形式化為一個簡單的優化目標并對其拉格朗日展開形式進行分析。發現當模型在不斷地優化時,當前迭代中注意力占比越大的圖像塊,在下次迭代過程中會傾向于被分配更大的注意力權值。為緩解這一問題,DropKey通過隨機drop部分Key的方式來隱式地為每個注意力塊分配一個自適應算子以約束注意力分布從而使其變得更加平滑。值得注意的是,相對于其他根據特定任務而設計的正則化器,DropKey無需任何手工設計。由于在訓練階段對Key執行隨機drop,這將導致訓練和測試階段的輸出期望不一致,因此該方法還提出使用蒙特卡洛方法或微調技巧以對齊輸出期望。此外,該方法的實現僅需兩行代碼,具體如圖2所示。

            圖2 DropKey實現方法

            一般而言,ViT會疊加多個注意力層以逐步學習高維特征。通常,較淺層會提取低維視覺特征,而深層則旨在提取建??臻g上粗糙但復雜的信息。因此,該研究嘗試為深層設置較小的drop概率以避免丟失目標對象的重要信息。具體而言,DropKey并不在每一層以固定的概率執行隨機drop,而是隨著層數的不斷加深而逐漸降低drop的概率。此外,該研究還發現這種方法不僅適用于DropKey,還可以顯著提高Dropout的性能。

            雖然在CNN中對結構化drop方法已有較為詳細的研究,但還沒有研究該drop方式對ViT的性能影響。為探究該策略會不會進一步提升性能,該論文實現了DropKey的兩種結構化形式,即DropKey-Block和DropKey-Cross。其中,DropKey- Block通過對以種子點為中心的正方形窗口內連續區域進行drop,DropKey-Cross則通過對以種子點為中心的十字形連續區域進行drop,如圖3所示。然而,該研究發現結構化drop方法并不會帶來性能提升。

            圖3 DropKey的結構化實現方法

            實驗結果

            圖4 DropKey和Dropout在CIFAR10/100上的性能比較

            圖5 DropKey和Dropout在CIFAR100上的注意力圖可視化效果比較

            圖6 不同drop概率設置策略的性能比較

            圖7 不同輸出期望對齊策略的性能比較

            圖8 不同結構化drop方法的性能比較

            圖9 DropKey和Dropout在ImageNet上的性能比較

            圖10 DropKey和Dropout在COCO上的性能比較

            圖11 DropKey和Dropout在HICO-DET上的性能比較

            圖12 DropKey和Dropout在HICO-DET上的性能比較

            圖13 DropKey和Dropout在HICO-DET上的注意力圖可視化比較

            總結

            該論文創新性地提出了一種用于ViT的正則化器,用于緩解ViT的過擬合問題。與已有的正則化器相比,該方法可以通過簡單地將Key置為drop對象,從而為注意力層提供平滑的注意力分布。另外,該論文還提出了一種新穎的drop概率設置策略,成功地在有效緩解過擬合的同時穩定訓練過程。最后,該論文還探索了結構化drop方式對模型的性能影響。

            研究團隊

            本論文由美圖影像研究院(MT Lab)和中國科學院大學的研究者們共同提出。美圖影像研究院(MT Lab)是美圖公司致力于計算機視覺、深度學習、增強現實等領域的算法研究、工程開發和產品化落地的團隊,深耕人臉技術、人體技術、圖像識別、圖像處理、圖像生成、AR等領域的前沿性和前瞻性技術研究,對美圖秀秀、美顏相機、Wink等美圖旗下全系軟硬件產品提供技術支持,同時面向影像行業內多個垂直賽道提供針對性SaaS服務,通過領先技術推動美圖的產品發展,曾先后參與CVPR、ICCV、ECCV等計算機視覺國際頂級會議并斬獲十余項賽事冠亞軍,累計發表超30篇論文。

            標簽:

            業界
            移動互聯網

            ©2003-2020 CMS科技網 版權所有       聯系郵箱:51 46 76 11 3 @qq.com   浙ICP備2022016517號-14

            99久久国产精品一级毛片
              <object id="eqgf9"></object>
              <big id="eqgf9"><em id="eqgf9"></em></big>

                <th id="eqgf9"></th>

                  <center id="eqgf9"></center>