µÚ
3
ÕÂ
¾­µä¾í»ýÉñ¾­ÍøÂç
ÔÚ¹ýÈ¥Ê®¶àÄêÀï,Éî¶ÈÑ§Ï°ÁìÓò¾­ÀúÁË·ÉËÙµÄ·¢Õ¹,ÓÈÆäÊÇ¾í»ýÉñ¾­ÍøÂç
µÄ²»¶Ï´´ÐÂ,Ó¿Éú³öÖîÈçAlexNet[30]¡¢VGGNet[32]¡¢GoogleNet[33]¡¢ResNet[34]ºÍ
t[47]µÈÒ»ÏµÁÐ¾­µäÄ£ÐÍ¡£ÕâÐ©Ä£ÐÍÔÚÎÊÊÀÖ®³õ,
DenseNe¾ùÔÚÍ¼Ïñ·ÖÀàÈÎÎñÖÐ±í
ÏÖ×¿Ô½,µì¶¨ÁË¾í»ýÉñ¾­ÍøÂç·¢Õ¹µÄ¼áÊµ»ù´¡¡£¶øºóÐøµÄGAN[14]ÒÔ¼°
Transformer[48]ÍøÂçÔòÔÚ½á¹¹ÉÏÏà±È´«Í³Éñ¾­ÍøÂçÓÖ×ö³öÁËÖØ´ó´´ÐÂ,Îª¾í»ý
Éñ¾­ÍøÂç¿ª±ÙÁËÁ½¸öÐÂµÄ·¢Õ¹·½Ïò¡£ÖÁ½ñÕâÁ½ÖÖÄ£ÐÍµÄÏÈ½øË¼ÏëÈÔÈ»±»ÓÃÓÚ
Ðí¶àÐÂµÄÍ¼ÏñºÍÊÓÆµ´¦ÀíÉñ¾­ÍøÂçÉÏ¡£ÎªÁË¸üÈ«ÃæµØÀí½â¾í»ýÉñ¾­ÍøÂç,±¾ÕÂ
½éÉÜÕâÐ©¾­µäÍøÂçµÄ»ù±¾½á¹¹²¢Ì½ÌÖÏà¹ØÏ¸½Ú¡£

..3.eNt

1 
Alxe
3.1.1 
AlexNetµÄÍøÂç½á¹¹
2012 Äê,AlexNetÔÚImageNetÍ¼Ïñ·ÖÀà¾ºÈüÖÐÒ»¾Ù¶á¹Ú,Ïà½ÏÓÚÉÏÒ»ÄêµÄ
¹Ú¾üÄ£ÐÍ,AlexNet½«´íÎóÂÊ½µµÍÁË½ü10 ¸ö°Ù·Öµã¡£AlexNet²»½öÔÚÍøÂç½á¹¹
ÉÏ×ö³öÁËÖØÒª´´ÐÂ,»¹Ìá³öÁËDropoutÕýÔò»¯·½·¨ºÍReLU ¼¤»îº¯Êý,ÕâÐ©Í»
ÆÆÎª¼ÆËã»úÊÓ¾õÁìÓò¿ªÆôÁËÒ»¸öÐÂµÄÆªÕÂ¡£

AlexNetÍøÂçÓÉ¶à¸ö¾í»ý²ã¡¢³Ø»¯²ãºÍÈ«Á¬½Ó²ã¹¹³É¡£¾ßÌå¶øÑÔ,AlexNet 
Ê×ÏÈÊ¹ÓÃÁË1¸ö11¡Á11 µÄ¾í»ý²ã,Ëæºó½ÓÈë2¸ö3¡Á3 µÄ³Ø»¯²ã¡£½ÓÏÂÀ´,ÍøÂç
ÒÀ´Î²ÉÓÃÁË1¸ö5¡Á5 µÄ¾í»ý²ãºÍ3¸ö3¡Á3 µÄ¾í»ý²ã¡£ÐèÒª×¢ÒâµÄÊÇ,Õâ3¸ö
3¡Á3 µÄ¾í»ý²ãÃ¿´ÎÊä³öµÄ³ß´ç¾ù±£³Ö²»±ä¡£ÔÚÌØÕ÷Í¼½øÈëÈ«Á¬½Ó²ãÖ®Ç°,Ðè¶Ô
Æä½øÐÐ±âÆ½»¯´¦Àí¡£×îÖÕ,È«Á¬½Ó²ãÊä³öÒ»¸ö°üº¬
N 
¸öÀà±ðµÄÏòÁ¿,Í¨¹ý
Softmaxº¯Êý¶Ô¸÷Àà±ð½øÐÐ¸ÅÂÊ·ÖÀà,ÒÀ¾Ý×î´ó¸ÅÂÊÖµÈ·¶¨×îÖÕ·ÖÀà½á¹û¡£Æä
½á¹¹ÈçÍ¼3-1ËùÊ¾¡£

´ÓÍ¼3-1ÖÐ¿ÉÒÔ¿´µ½,AlexNetÍøÂçÊ×ÏÈÊ¹ÓÃÒ»ÕÅ³ß´çÎª227¡Á227¡Á3 µÄ
Í¼Æ¬×÷ÎªÊäÈë¡£ÔÚAlexNetµÄÔ­Ê¼ÂÛÎÄÖÐ,ÊäÈëÍ¼ÏñµÄ³ß´çÎª224¡Á224¡Á3,µ«
227¡Á227 µÄ³ß´çÔÚÊµ¼ÊÓ¦ÓÃÖÐÐ§¹û¸üºÃ¡£ÍøÂçµÄµÚÒ»²ãÊ¹ÓÃÁË96 ¸ö11¡Á11 
µÄ¾í»ýºË,²½·ùÎª4,Òò´ËÊä³öµÄ³ß´çËõÐ¡µ½55¡Á55,´óÔ¼ËõÐ¡ÁË4±¶¡£½ÓÏÂÀ´, 
ÍøÂçÊ¹ÓÃ1¸ö3¡Á3 µÄ¹ýÂËÆ÷¹¹½¨×î´ó³Ø»¯²ã,²½·ùÎª2,Ê¹µÃ³ß´ç½øÒ»²½ËõÐ¡


48 Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
Í¼3-1 AlexNetµÄÍøÂç½á¹¹
ÖÁ27¡Á27¡Á96¡£½Ó×Å,ÍøÂçÖ´ÐÐÁË1¸ö5¡Á5µÄ¾í»ý²Ù×÷,¾­¹ýÌî³äºó,Êä³ö³ß´çÎª27¡Á 
27¡Á256¡£È»ºó,ÔÙ´Î½øÐÐ×î´ó³Ø»¯,Êä³ö³ß´çËõÐ¡ÖÁ13¡Á13¡£½ÓÏÂÀ´µÄÁ½²ã¼ÌÐøÊ¹ÓÃÏà
Í¬µÄ3¡Á3¾í»ýºËºÍÏàÍ¬µÄÌî³ä²ßÂÔ,Êä³ö³ß´ç±£³ÖÎª13¡Á13,µ«ÂË²¨Æ÷ÊýÁ¿Ôö¼ÓÖÁ384¡£
ÔÙ½øÐÐÒ»´ÎÏàÍ¬µÄ¾í»ý²Ù×÷,×îºóÍ¨¹ýÒ»´Î×î´ó³Ø»¯²Ù×÷,×îÖÕÊä³ö³ß´çÎª6¡Á6¡Á256¡£
½«6¡Á6¡Á256µÄÌØÕ÷Í¼Õ¹¿ªÎª9216¸öµ¥Ôª,²¢ÒÀ´ÎÍ¨¹ýÈ«Á¬½Ó²ã½øÐÐ´¦Àí¡£×îºó,ÍøÂç
Ê¹ÓÃSoftmaxº¯ÊýÊä³ö·ÖÀà½á¹û,´Ó1000¸ö¿ÉÄÜµÄ¶ÔÏóÖÐÈ·¶¨×îÖÕÀà±ð¡£
3.1.2 AlexNetµÄ¸Ä½ø
Ïà±ÈÓÚ´ËÇ°µÄÉî¶ÈÉñ¾­ÍøÂç,AlexNetÒýÈëÁË¶àÏî¹Ø¼ü¸Ä½ø¡£ÀýÈç,ÍøÂçÊ¹ÓÃÁË
ReLU ×÷Îª¼¤»îº¯Êý¡£ÓëSigmoidºÍTanhº¯Êý²»Í¬,ReLU ÄÜ¹»ÓÐÐ§»º½âÔÚÑµÁ·¹ý³ÌÖÐ
Òò±¥ºÍÇøµ¼ÖÂµÄÌÝ¶ÈÏûÊ§ÎÊÌâ¡£Í¬Ê±,ReLU Í¨¹ýÊ¹²¿·ÖÉñ¾­ÔªÊ§»î,Ôö¼ÓÁËÍøÂçµÄÏ¡Êè
ÐÔ,´Ó¶ø½µµÍÁË¹ýÄâºÏµÄ·çÏÕ¡£´ËÍâ,AlexNetÔ­ÎÄÖÐÌá³öµÄDropout¼¼ÊõÒ²ÊÇÎªÁËÔö¼Ó
ÍøÂçµÄÏ¡ÊèÐÔ¡£ÓÉÓÚDropoutÔÚÑµÁ·Ê±Ëæ»úÊ§»î²¿·ÖÉñ¾­Ôª,Ã¿Ò»ÂÖÑµÁ·µÄÉñ¾­ÍøÂç½á
¹¹¶¼»áÓÐËù²»Í¬,ÕâÖÖËæ»úÐÔ²»½öÔöÇ¿ÁËÄ£ÐÍµÄ·º»¯ÄÜÁ¦,»¹ÄÜ±ÜÃâ²¿·ÖÉñ¾­ÔªÔÚÑµÁ·¹ý
³ÌÖÐÊ¼ÖÕÎÞ·¨µÃµ½³ä·ÖÑµÁ·µÄÎÊÌâ,½ø¶øÌá¸ßÁËÄ£ÐÍµÄÑ§Ï°ÄÜÁ¦¡£
³ýÁËÕâÐ©¸Ä½ø,AlexNet»¹ÒýÈëÁË¾Ö²¿ÏìÓ¦¹éÒ»»¯(LocalResponseNormalization, 
LRN)[30]¼¼Êõ,ÓÐÐ§´Ù½øÁËÄ£ÐÍµÄ·º»¯ÄÜÁ¦¡£ÔÚÊµÑéÖÐ,LRN ÏÔÖøÌá¸ßÁËÄ£ÐÍµÄ×¼È·ÂÊ¡£
LRN µÄ¼ÆËãÈçÊ½(3-1)ËùÊ¾: 
di
x,y =ci
x,y/k +a ¦² min(N-1,i+n/2) 
j=max(0,i-n/2)(cj
( x,y ))b (3-1) 
ÆäÖÐ,di
x,y Îª¹éÒ»»¯ºóµÄÊä³ö,±íÊ¾Í¨µÀi ÉÏ×ø±ê(x,y)´¦µÄ¼¤»îÖµ;ci
x,y Îª¹éÒ»»¯Ç°µÄÊä
Èë,±íÊ¾Í¨µÀi ÉÏ×ø±ê(x,y)´¦µÄ¼¤»îÖµ¡£k¡¢a¡¢b Îª³£Êý³¬²ÎÊý,k Æðµ½Æ½»¬×÷ÓÃ,·ÀÖ¹·Ö
Ä¸ÎªÁã;a ¿ØÖÆ¹éÒ»»¯µÄÇ¿¶È;b ¿ØÖÆ¹éÒ»»¯µÄÖ¸Êý¡£N ±íÊ¾ÊäÈëÌØÕ÷Í¼µÄÍ¨µÀ×ÜÊý¡£n 
±íÊ¾¾Ö²¿¹éÒ»»¯µÄ´°¿Ú´óÐ¡¡£ÁíÍâ,ÔÚAlexNetÖÐµÄ³Ø»¯²Ù×÷ÖÐ,²ÉÓÃµÄ²½·ùÐ¡ÓÚ¾í»ý

µÚ3ÕÂ¾­µä¾í»ýÉñ¾­ÍøÂç49
ºËµÄ´óÐ¡¡£ÕâÖÖÖØµþµÄ³Ø»¯²ãÉè¼ÆÔÚÊµÑéÖÐ±»Ö¤Ã÷ÄÜ¹»ÓÐÐ§½µµÍ¹ýÄâºÏ·çÏÕ¡£
ÔÚÑµÁ·ÖÐ×÷Õß¶Ô256¡Á256´óÐ¡µÄRGBÍ¼Ïñ½øÐÐËæ»ú224¡Á224µÄ²Ã¼ôºÍË®Æ½·­×ª, 
Í¬Ê±Ò²¸Ä±äÑµÁ·Í¼Æ¬ÖÐRGBÍ¨µÀµÄÇ¿¶È¡£¾ßÌå×ö·¨ÊÇ,Ê×ÏÈ¶ÔÍ¼ÏñµÄ3¸öÍ¨µÀ½øÐÐ±äÐÎ
²Ù×÷,½«Æä×ª»»ÎªÒ»¸ö¾ØÕó¡£¸Ã¾ØÕóµÄÁÐÊýµÈÓÚÍ¨µÀÊý,ÐÐÊýÎªÃ¿¸öÍ¨µÀ¾ØÕó±ß³¤µÄÆ½
·½¡£½Ó×Å,Ê¹ÓÃÖ÷³É·Ö·ÖÎö(PrincipalComponentAnalysis,PCA)[49]¶ÔÃ¿¸öÍ¨µÀ½øÐÐ¹é
Ò»»¯´¦Àí,¼´¼õÈ¥Ã¿ÁÐµÄ¾ùÖµ,È»ºó³ËÒÔ¾ØÕóµÄ×ªÖÃ,²¢³ýÒÔÃ¿¸öÍ¨µÀ¾ØÕóÎ¬¶ÈµÄÆ½·½¼õ
1,´Ó¶øµÃµ½Ð­·½²î¾ØÕó¡£È»ºó,·Ö±ð¼ÆËãÐ­·½²î¾ØÕóµÄÌØÕ÷ÖµºÍÌØÕ÷ÏòÁ¿¡£×îÖÕ,¶ÔÃ¿¸ö
Í¨µÀµÄËùÓÐÏñËØ¼ÓÉÏÒ»¸öÖµ,¸ÃÖµÓÉÊ½(3-2)µÃµ½: 
[P1,P2,P3][a1¦Ë1,a2¦Ë2,a3¦Ë3]T (3-2) 
ÆäÖÐ,Pi±íÊ¾µÚi¸öÖ÷³É·ÖÏòÁ¿;¦Ëi±íÊ¾ÓëµÚi¸öÖ÷³É·ÖPi¶ÔÓ¦µÄÌØÕ÷Öµ;aiÊÇµÚi¸ö
N(0,0.1)¸ßË¹·Ö²¼ÖÐ²ÉÑùµÃµ½µÄËæ»úÖµ¡£ÕâÑù¼ÆËã¾ÍµÃµ½ÁË1¸ö(3¡Á1)µÄÏòÁ¿,¼´¼ÓÔÚ
Ã¿¸öÏñËØµÄRGB3¸öÍ¨µÀÉÏµÄÖµ¡£
..3.2VGGNet3.2.1VGGNetµÄÍøÂç½á¹¹
VGGNetÊÇÓÉÅ£½ò´óÑ§ºÍ¹È¸è¹«Ë¾ÓÚ2014ÄêÌá³öµÄÒ»ÖÖÉî¶È¾í»ýÉñ¾­ÍøÂç¡£ËüÔÚ
AlNÖ÷ÒªÌåÏÖÔÚÁ½·½Ãæ:Ê¹ÓÃ3¡Á3¾í»ýºË´úÌæAlN
exetµÄ»ù´¡ÉÏ½øÐÐÁËÖØÒªµÄ¸Ä½ø, exetÖÐ
µÄ´ó¾í»ýºË;Æä´Î,Ëü²ÉÓÃ³Ø»¯ºË´úÌæAlexNetµÄ3¡Á3³Ø»¯ºË¡£VGGNetÓÐ¶àÖÖ²»Í¬²ã´ÎµÄÍø
Âç½á¹¹,ÂÛÎÄÖÐÌá³öÁË6ÖÖ²»Í¬²ã´ÎµÄÍøÂç½á¹¹,´Ó
1 
²ã~19²ã²»µÈ¡£ÆäÖÐ,VGG19½á¹¹ÒÔ
¼°ÆäËûVGGNetµÄ½á¹¹²ÎÊýÈç±í3-1ËùÊ¾¡£´Ó±í3-1ÖÐ¿ÉÒÔ¿´³ö,4ÖÖVGGNet¶¼ÓÉ5¸ö
VGGÄ£¿éºÍ5¸ö×î´ó³Ø»¯²ã¹¹³É,Ã¿Ò»¸öVGGÄ£¿é¶¼°üº¬¶à¸öÏàÍ¬µÄ¾í»ý²ã¡£¶øÃ¿¸ö×î´ó
³Ø»¯²ã²Ù×÷½«Ç°Ò»²ãµÄÊä³öÌØÕ÷Ëõ¼õÒ»°ë¡£VGG19ÍøÂç½á¹¹ÈçÍ¼3-2ËùÊ¾¡£

±í3-
1 
VGG11~VGG19µÄÍøÂç½á¹¹²ÎÊý±í

VGG11~VGG19ÍøÂç½á¹¹²ÎÊý
A A-LRN B C D E 
11²ã11²ã13²ã16²ã16²ã19²ã

input(224¡Á224RGBimage) 

conv3-64 conv3-64 LRN 
conv3-64 conv3-64 
conv3-64 
conv3-64 
conv3-64 
conv3-64 
conv3-64 
conv3-64 

×î´ó³Ø»¯²ã

conv3-128 conv3-128 conv3-128 conv3-128 
conv3-128 
conv3-128 
conv3-128 
conv3-128 
conv3-128 
conv3-128 

×î´ó³Ø»¯²ã

conv3-256 
conv3-256 
conv3-256 
conv3-256 
conv3-256 
conv3-256 
conv3-256 
conv3-256 conv1-256 
conv3-256 
conv3-256 conv3-256 
conv3-256 
conv3-256 
conv3-256conv3-256 


Ðø±í
50Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
VGG11~VGG19ÍøÂç½á¹¹²ÎÊý
×î´ó³Ø»¯²ã
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 conv1-512conv3-512 
conv3-512 conv3-512conv3-512 
conv3-512 
conv3-512conv3-512
×î´ó³Ø»¯²ã
×î´ó³Ø»¯²ã
FC-4096 
FC-4096 
FC-1000 
Softmax 
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 
conv3-512 conv1-512conv3-512 
conv3-512 conv3-512conv3-512 
conv3-512 
conv3-512conv3-512
Í¼3-
2 
VGG19 
ÍøÂç½á¹¹

3.2 
VGGNtµÄÌØµã

2.e

VGGNetÏà±ÈÓÚAlexNetµÄ×î´óÌØµãÊÇÊ¹ÓÃ½ÏÐ¡µÄ¾í»ýºË(3¡Á3)Ìæ´ú½Ï´óµÄ¾í»ý
ºË¡£¾ßÌå¶øÑÔ,2¸ö3¡Á3 ¾í»ý¶ÑµþÏàµ±ÓÚ1¸ö5¡Á5 ¾í»ý,¶ø3¸ö3¡Á3 ¶ÑµþÏàµ±ÓÚ1¸ö
7¡Á7 ¾í»ý,¸ÐÊÜÒ°´óÐ¡²»±ä¡£ÀýÈç,Èç¹û²½³¤Îª1,Ìî³äÎª0,ÄÇÃ´2¸ö3¡Á3 ¾í»ýºóµÄÍ¼
Ïñ³ß´çÎª(((
N 
-3)/1+1)-3)/1+1=((
N 
-3+1)-3+1)=
N 
-4=(
N 
-5)/1+1 ¡£
ÇÒ×ö¾í»ýºóµÃµ½µÄÌØÕ÷,¶¼ÊÇ´ÓÔ­Í¼ÏñÉÏÏàÍ¬µÄÏñËØµãÌáÈ¡µÄ(Ô­Í¼ÏñÃ¿5¡Á5 µÄ¿ÕÓòÏñ


µÚ3ÕÂ¾­µä¾í»ýÉñ¾­ÍøÂç51
ËØµã¶ÔÓ¦Ò»¸öÐÂµÄÌØÕ÷), Òò´Ë¸ÐÊÜÒ°´óÐ¡²»±ä¡£¹Ê2¸ö3¡Á3 µÄ¾í»ýºËµÈÐ§ÓÚ5¡Á5 µÄ¾í
»ýºË¡£¸ÐÊÜÒ°¼ÆËã¹«Ê½ÈçÊ½(3-3): 
F(i)=(F(i+1)-1)¡ÁS+K(3-3) 
ÆäÖÐ,K´ú±í¾í»ýºË´óÐ¡;S±íÊ¾²½·ù¡£ÓÉÓÚÓÃ¶à¸öÐ¡¾í»ýÌæ´ú´ó¾í»ý,¹ÊÊ¹ÓÃÁË¶à¸ö·Ç
ÏßÐÔ¼¤»îº¯Êý,Ã¿¸öVGGNetÔÚ¾­¹ýËùÓÐ¾í»ý³Ø»¯ºó»¹ÓÐ3¸öÈ«Á¬½Ó²ã,ÔÚÈ«Á¬½Ó²ãÖÐ
¼ä²ÉÓÃDropoutÀ´·ÀÖ¹¹ýÄâºÏ¡£×îºó»áÍ¨¹ýSoftmaxÊä³ö¸÷Àà¸ÅÂÊ¡£
VGGNetÖ÷ÒªÍ¨¹ý¶ÔÍ¼ÏñÖØÐÂËõ·Å²¢Ëæ»ú²Ã¼ôµ½224¡Á224 µÄ³ß´ç,´ËÍâ»¹»á¶ÔÍ¼Ïñ
½øÐÐËæ»úË®Æ½·­×ªºÍËæ»úRGB À´½øÐÐÊý¾ÝÔöÇ¿¡£ÔÚÑµÁ·Ê±,ÐèÒª×¢Òâ¶ÔÇ°4²ã¾í»ý²ãºÍ
ºó3²ã½øÐÐ³õÊ¼»¯,¶øÖÐ¼ä²ãÔò²ÉÓÃËæ»ú³õÊ¼»¯¡£
È»¶ø,VGGNetÖ÷ÒªÊÇÍ¨¹ýÔö¼Ó¾í»ýÍøÂçÉî¶ÈÀ´ÌáÉýÐÔÄÜ,Òò´ËÔÚ²»¶ÏÔö¼Ó
VGGNet²ãÊýµÄ¹ý³ÌÖÐ,¿ÉÄÜ»á³öÏÖÐÔÄÜÍË»¯¡¢ÄÚ´æÕ¼ÓÃÔö´ó,ÒÔ¼°ÌÝ¶ÈÏûÊ§»òÌÝ¶È±¬Õ¨
µÈÎÊÌâ¡£
..3.3GoogLeNet3.3.1Inception½á¹¹
GoogLeNetÓëVGGNet¾ùµ®ÉúÓÚ2014 Äê¡£ÔÚÍ¬ÄêµÄImageNet±ÈÈüÖÐ,GoogLeNet 
Æ¾½è¸üµÍµÄ´íÎóÂÊ»ñµÃÁËµÚÒ»Ãû,Ïà½ÏÓÚVGGNet±íÏÖ¸ü¼Ó³öÉ«¡£ÓëAlexNetÏà±È, 
GoogLeNet²»½ö²ÎÊý¸üÉÙ,Í¬Ê±Ò²Ìá¸ßÁË×¼È·ÂÊ¡£ÓëVGGNetÏà±È,GoogLeNet²»½öÔÚ
Éî¶ÈÉÏÓÐËùÔö¼Ó,»¹ÌØ±ð×¢ÖØÁËÍøÂç¿í¶ÈµÄÓ°Ïì,Í¬Ê±ÏÔÖø½µµÍÁË²ÎÊýÁ¿¡£GoogLeNet 
µÄºËÐÄ´´ÐÂÔÚÓÚÒýÈëÁËInception½á¹¹,Í¨¹ýÊ¹ÓÃ²»Í¬´óÐ¡µÄ¾í»ýºË½øÐÐ½µÎ¬,´Ó¶øÌá¸ß
¼ÆËãÐ§ÂÊ[43]¡£´ËÍâ,GoogLeNet»¹ÒýÈëÁËÁ½¸ö¸¨Öú·ÖÀàÆ÷À´¸¨ÖúÑµÁ·,È¥³ýÁËÖÐ¼äµÄÈ«
Á¬½Ó²ã,²ÉÓÃÁËÆ½¾ù³Ø»¯²ã,²¢¼õÉÙÁËDropoutµÄÊýÁ¿¡£GoogLeNetÔÚºóÐøµÄÑÐ¾¿ÖÐ¾­
ÀúÁË¶à´Î¸Ä½ø,ÏÈºóÍÆ³öÁË¶à¸ö°æ±¾,Ö÷ÒªÇø±ðÔÚÓÚInception½á¹¹µÄÑÝ½ø,·Ö±ðÎªV1 ¡¢
V2 ¡¢V3 ¡¢V4 ÒÔ¼°½áºÏResNetµÄ°æ±¾¡£

Inception½á¹¹Í¨¹ýÊ¹ÓÃ3¸ö²»Í¬´óÐ¡µÄ¾í»ýºË½øÐÐÉ¨ÃèºÍ¾í»ýÔËËã,Í¬Ê±½áºÏÒ»¸ö
×î´ó³Ø»¯²Ù×÷¡£×îÖÕ,Õâ4²¿·ÖµÄÊä³ö°´Í¨µÀÆ´½Ó,È»ºó´«µÝÖÁÏÂÒ»²ã¡£¾ßÌåÀ´Ëµ,µÚ1 
¸ö·ÖÖ§Îª1¡Á1 µÄ¾í»ý²ã,²½·ùÎª1;µÚ2¸ö·ÖÖ§Îª3¡Á3 µÄ¾í»ý²ã,²½·ùÎª1,²¢ÉèÖÃÌî³ä
Îª1;µÚ3¸ö·ÖÖ§Îª5¡Á5 µÄ¾í»ý²ã,²½·ùÎª1,Ìî³äÉèÖÃÎª2;µÚ4¸ö·ÖÖ§Îª3¡Á3 µÄ×î´ó³Ø
»¯²ã,²½·ùÎª1,Ìî³äÎª1¡£¶ÁÕß¿ÉÒÔ¸ù¾ÝÐèÒª¶ÔÕâÐ©²ÎÊý½øÐÐµ÷Õû,µ«ËùÓÐ·ÖÖ§µÄÊä³öÌØ
Õ÷¾ØÕó³ß´çÐèÓëÊäÈëÌØÕ÷¾ØÕó³ß´çÏàµÈ¡£ÎªÁË±ÜÃâÖ±½ÓÊ¹ÓÃInception½á¹¹Ê±¼ÆËãÁ¿¹ý
´ó,Í¨³£»áÔÚ3¸ö¾í»ý²ãÇ°¼ÓÈë1¸ö1¡Á1 µÄ¾í»ý²ã½øÐÐ½µÎ¬,²¢ÔÚ³Ø»¯²ãÖ®ºóÔÙ¼ÓÈë1 
¸ö1¡Á1 µÄ¾í»ý²ã¡£Inception½á¹¹ÈçÍ¼3-3ËùÊ¾,¶øGoogLeNetÕûÌåÓÉ¶à¸öInceptionÄ£
¿é¹¹³É,ÆäÏêÏ¸½á¹¹Èç±í3-2ËùÊ¾¡£


52Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
Í¼3-3Inception½á¹¹
±í3-2GoogLeNet¸÷²ãÍ¨µÀ¼°³ß´ç
ÍøÂç²ã
¾í»ýºË
´óÐ¡/²½·ù
Êä³ö³ß´çdepth#1¡Á1#3¡Á3reduce#3¡Á3#5¡Á5reduce#5¡Á5poolproj
²ÎÊýÁ¿flopsconvolution 7¡Á7/2 112¡Á112¡Á64 1 2.7K 34M 
maxpool 3¡Á3/2 56¡Á56¡Á64 0 
convolution 3¡Á3/1 56¡Á56¡Á192 2 64 192 112K360M 
maxpool 3¡Á3/2 28¡Á28¡Á192 0 
inception(3a) 28¡Á28¡Á256 2 64 96 128 16 32 32 159K 28M 
inception(3b) 28¡Á28¡Á480 2 128 128 192 32 96 64 380K304M 
maxpool 3¡Á3/2 14¡Á14¡Á480 0 
inception(4a) 14¡Á14¡Á512 2 192 96 208 16 48 64 364K 73M 
inception(4b) 14¡Á14¡Á512 2 160 112 224 24 64 64 437K 88M 
inception(4c) 14¡Á14¡Á512 2 128 128 256 24 64 64 463K100M 
inception(4d) 14¡Á14¡Á528 2 112 14428832 64 64 580K119M 
inception(4e) 14¡Á14¡Á832 2 256 160 320 32 128 128 840K170M 
maxpool 3¡Á3/2 7¡Á7¡Á832 0 
inception(5a) 7¡Á7¡Á832 2 256 160 320 32 128 1281072K54M 
inception(5b) 7¡Á7¡Á1024 2 384 192 384 48 128 1281388K71M 
avgpool 7¡Á7/1 1¡Á1¡Á1024 0 
dropout(40%) 1¡Á1¡Á1024 0 
linear 1¡Á1¡Á10001 1000K 1M 
Softmax 1¡Á1¡Á10000 

µÚ3ÕÂ¾­µä¾í»ýÉñ¾­ÍøÂç53
¿ÉÒÔ¿´µ½,Ã¿¸öInceptionÄ£¿éµÄÉî¶È¾ùÎª2,¼´¸÷¾í»ý²Ù×÷ÖØ¸´Á½´Î¡£¿ÉÒÔÍ¨¹ýÒ»
¸ö¼òµ¥µÄ±È½ÏÀ´Àí½âÆäÐ§¹û:¼ÙÉèÃ»ÓÐÊ¹ÓÃ1¡Á1¾í»ý½øÐÐ½µÎ¬´¦Àí,×îÖÕÊä³öµÄÌØÕ÷Í¼
Î¬¶È½«Îª64+128+32+192=416²ã;¶ø¼ÓÈë1¡Á1¾í»ýºó,ÌØÕ÷Í¼µÄÎ¬¶ÈÔòÎª64+ 
128+32+32=256²ã¡£ÓÉ´Ë¿ÉÒÔ¿´³ö,¾­¹ý1¡Á1¾í»ý´¦Àíºó,ÌØÕ÷Í¼µÄÎ¬¶ÈÏÔÖø¼õÉÙ¡£
¸ÐÐËÈ¤µÄ¶ÁÕß»¹¿ÉÒÔ½øÒ»²½¼ÆËã¾í»ý²Ù×÷µÄ¼ÆËã´ÎÊý¡£¼ÓÈë1¡Á1¾í»ýºó,¼ÆËãÁ¿¼¸ºõ¼õ
ÉÙÎªÔ­À´µÄÊ®·ÖÖ®Ò»¡£ÕâÖÖInception½á¹¹µÄÉè¼Æ²»½ö½µµÍÁË¼ÆËãÁ¿,»¹ÌáÉýÁËÍøÂçµÄÐ§
ÂÊºÍÐÔÄÜ¡£
3.3.2¸¨Öú·ÖÀàÆ÷
ÎªÁË»º½âÉî²ãÍøÂçÑµÁ·ÖÐµÄÌÝ¶ÈÏûÊ§ÎÊÌâ,¿ÉÒÔÔÚInception(4a)ºÍInception(4d)´¦
·Ö±ðÌí¼ÓÒ»¸ö¸¨Öú·ÖÀàÆ÷¡£Õâ¸ö¸¨Öú·ÖÀàÆ÷Í¨¹ý³Ø»¯¡¢¾í»ýºÍÈ«Á¬½Ó²ã½øÐÐ´¦Àí,×îºóÖ´
ÐÐSoftmax²Ù×÷ÒÔ¼ÆËã·ÖÀà¸ÅÂÊ¡£ÔÚÑµÁ·¹ý³ÌÖÐ,¸¨Öú·ÖÀàÆ÷µÄËðÊ§º¯Êý»á±»¼ÓÈ¨ºóºÏ
²¢µ½×ÜËðÊ§º¯ÊýÖÐ¡£ÑÐ¾¿·¢ÏÖ,¸¨Öú·ÖÀàÆ÷ÔÚÑµÁ·ÔçÆÚ²¢Ã»ÓÐÏÔÖøÌáÉýÊÕÁ²ËÙ¶È:ÔÚÄ£
ÐÍÉÐÎ´´ïµ½¸ß¾«¶ÈÊ±,Á½ÖÖÍøÂçµÄÑµÁ·½ø¶È¼¸ºõÏàÍ¬;È»¶ø,½Ó½üÑµÁ·½áÊøÊ±,´øÓÐ¸¨Öú·Ö
Ö§µÄÍøÂç¿ªÊ¼±íÏÖ³ö¸ü¸ßÇÒ¸üÎÈ¶¨µÄ×¼È·ÐÔ¡£Òò´Ë,¸¨Öú·ÖÀàÆ÷µÄÖ÷Òª×÷ÓÃÊÇ×÷ÎªÕýÔò
»¯ÊÖ¶Î,ÓÐÖúÓÚ·ÀÖ¹¹ýÄâºÏ¡£
..3.4²Ð²îÍøÂç
ÔÚÉñ¾­ÍøÂçµÄÉè¼ÆÖÐ,Ëæ×Å²ãÊýµÄ¼ÓÉî,Ä£ÐÍÐÔÄÜ¿ÉÄÜ»áÏÂ½µ¡£ÀýÈç,ÔÚÊµÑéÖÐ, 
VGGNetÔÚ´ïµ½19²ãÊ±,½øÒ»²½Ôö¼Ó²ãÊý·´¶øµ¼ÖÂÐÔÄÜÏÂ½µ¡£¹ý¶ÈÔö¼Ó²ãÊý»áÒý·¢ÌÝ¶È
±¬Õ¨ºÍÌÝ¶ÈÏûÊ§µÄÎÊÌâ,×îÖÕµ¼ÖÂÍøÂçÐÔÄÜ±¥ºÍÉõÖÁÍË»¯,½ø¶øµ¼ÖÂ¹ýÄâºÏ²¢½µµÍ·º»¯ÄÜ
Á¦[50]¡£ÎªÁËÓ¦¶ÔÉî²ãÍøÂçÖÐµÄÍË»¯ÎÊÌâ,ÑÐ¾¿ÕßÌá³öÁËÒ»ÖÖÐÂ·½·¨,¼´ÈËÎªµØÈÃÉñ¾­Íø
ÂçµÄÄ³Ð©²ãÌø¹ýÏÂÒ»²ãÉñ¾­ÔªµÄÁ¬½Ó,Ö±½ÓÓë¸üÉî²ãµÄÉñ¾­ÔªÏàÁ¬¡£ÕâÖÖÈõ»¯²ã¼äÇ¿Áª
ÏµµÄ½á¹¹±»³ÆÎªResNet¡£

ResNetµÄºËÐÄ´´ÐÂÖ®Ò»ÊÇÒýÈëÁËÌøÔ¾Á¬½Ó,ÐÎ³É²Ð²î½á¹¹¡£Ö±¹ÛÉÏ,ÕâÒâÎ¶×Å½«¶à
¸ö¾í»ýÍøÂç»ù±¾µ¥ÔªµÄÊäÈëÓëÊä³öÏà¼Ó,ÒÔ²úÉúÐÂµÄÊä³ö¡£³£¼ûµÄ²Ð²î½á¹¹ÓÐÁ½ÖÖÀàÐÍ: 
Ò»ÖÖÊÇÓÉ2¸ö3¡Á3¾í»ý²ã×é³ÉµÄË«²ãBasicBlock;ÁíÒ»ÖÖÊÇÓÉ3¡Á3¾í»ý²ãºÍ1¡Á1¾í»ý
²ã×é³ÉµÄ3²ãBotleNeck¡£ÔÚÕâÁ½ÖÖ½á¹¹ÖÐ,ReLU¼¤»îº¯ÊýÓÃÓÚÁ¬½ÓÃ¿Ò»²ãµÄÇ°ºóÍø
Âç¡£ËüÃÇµÄ½á¹¹ÈçÍ¼3-4ËùÊ¾¡£

ÊÂÊµÉÏ,BotleNeckÊÇ¶ÔBasicBlockµÄÒ»ÖÖ¸Ä½ø,ÒÔ¼õÉÙ²ÎÊýÊýÁ¿¡£BotleNeck½á
¹¹ÖÐµÄÇ°ºó1¡Á1¾í»ýÖ÷ÒªÓÃÓÚÏÈ½µµÍÎ¬¶È,È»ºóÔÙ»Ö¸´µ½Ô­Ê¼ÊäÈëÊý¾ÝµÄÎ¬¶È¡£Í¨¹ý¼Æ
Ëã¿ÉÒÔµÃ³ö,BotleNeckµÄ²ÎÊýÊýÁ¿Îª1¡Á1¡Á256¡Á64+3¡Á3¡Á64¡Á64+1¡Á1¡Á256¡Á64= 
69632,¶øBasicBlockµÄ²ÎÊýÊýÁ¿ÔòÎª256¡Á256¡Á3¡Á3¡Á2=1179648 ¡£ÏÔÈ»,BasicBlock 
µÄ²ÎÊýÊýÁ¿Ô¶Ô¶³¬¹ýÁËBotleNeck¡£Òò´Ë,ÔÚ¸üÉî²ãµÄÍøÂçÖÐ,BotleNeckµÄ½á¹¹¸üÎªÊÊ
ÓÃ,ÀýÈçResNet50 ¡£¶øBasicBlockÔò¸üÊÊºÏÓ¦ÓÃÓÚResNet18µÈ²ãÊýÏà¶Ô½ÏÉÙµÄ²Ð²îÍø
ÂçÖÐ¡£

´øÓÐ²Ð²î½á¹¹µÄÍøÂçÓë´«Í³ÍøÂçµÄ±¾ÖÊÇø±ðÔÚÓÚ,Ç°ÕßÄâºÏµÄÊÇ²Ð²î,¶øºóÕßÔòÊÇÖ±


54Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
Í¼3-4²Ð²î½á¹¹Ê¾Àý
½ÓÄâºÏÄ¿±êÖµ¡£²Ð²îÏà¶Ô¸üÈÝÒ×Ñ§Ï°,µ±ÉÏ²ãÍøÂç½Ó½ü×îÓÅÖµÊ±,´øÓÐShortcutÁ¬½ÓµÄ
ResNetÍøÂçÏà±ÈÃ»ÓÐShortcutÁ¬½ÓµÄÍøÂç¸üÈÝÒ×½øÐÐµ÷Õû[51]¡£Í¬Ê±,µ±Îó²îÒÑ¾­·Ç³£
Ð¡Ê±,²Ð²îÍøÂçÄÜ¹»·Å´óÎó²î,Õâ²»½öÔö´óÁËÓÅ»¯¿Õ¼ä,»¹ÓÐÐ§±ÜÃâÁËÓÅ»¯¹ý³ÌÇ÷ÓÚ±¥ºÍ,
[3
´Ó¶ø½â¾öÁËÌÝ¶ÈÏûÊ§ÎÊÌâ47]¡£¿ÉÒÔÍ¨¹ý²Ð²îÍøÂçµÄÇ°Ïò´«²¥¹«Ê½(-4)¶ÔÕâÒ»ÏÖÏó½øÐÐ
¸üÉîÈëµÄ·ÖÎö: 
F(=¦Ä(x))+Wx 
34)

x)f1(f2((
ÆäÖÐ,f1 ±íÊ¾µÚÒ»²ã¾í»ý;
¦Ä 
±íÊ¾¼¤»îº¯Êý;

f2 ±íÊ¾µÚ¶þ²ã;
W 
ÎªÏßÐÔ±ä»¯¾ØÕó¡£¼ÙÉèÄ¿
01, 02,

±êÖµÎª10.¶øÔÚÄ³ÂÖÑµÁ·ºó,·Ç²Ð²îÍøÂçµÄÊä³öÖµÎª10.´ËÊ±µÄ±ä»¯·ù¶È·Ç³£Ð¡,¼¸

ºõ¿ÉÒÔºöÂÔ²»¼Æ¡£È»¶ø,¶ÔÓÚ²Ð²îÍøÂç,ÓÉÓÚÊä³öÓÉÁ½²¿·Ö¹¹³É,¼´ÊäÈëÖ±½ÓÁ¬½ÓºÍ²Ð²î

²¿·Ö,¼ÙÉèÊäÈë²¿·ÖÎª10, x) 02µ÷Õûµ½0.ÕâÒâÎ¶×Å²Ð²î²¿·ÖµÄ±ä

ÄÇÃ´´ËÊ±F(Ðè´Ó0.01, 
»¯ÂÊ´ïµ½ÁË100%,ÈÔÓÐ·Ç³£´óµÄÓÅ»¯¿Õ¼ä,Ô¶Î´´ïµ½±¥ºÍ×´Ì¬¡£Ä³ÖÖ³Ì¶ÈÉÏ,ResNetÍ¨
¹ý·Å´óÏà¶ÔÎó²î,Ê¹µÃÓÅ»¯¹ý³Ì²»Ò×ÏÝÈë±¥ºÍ×´Ì¬,´Ó¶øÓÐÐ§±ÜÃâÁËÒòÍøÂç²ãÊý¹ý¶àµ¼ÖÂ
µÄ¹ýÄâºÏÎÊÌâ¡£ÔÚÀíÏëÇé¿öÏÂ,µ±ÊäÈë²¿·ÖÒÑÓëÄ¿±êÖµÏà·ûÊ±,ÍøÂç¿ÉÒÔÖ±½ÓÁîF(x)Îª
0,Ïàµ±ÓÚÌø¹ýÁËÖÐ¼äµÄÍøÂç²ã,´Ó¶ø½ÚÊ¡ÁË¼ÆËãÊ±¼äºÍ×ÊÔ´¡£¶øÔÚ·Ç²Ð²îÍøÂçÖÐ,¼´±ãÊä
³öÒÑÓëÄ¿±êÖµÏàµÈ,ÈÔÐè¼ÌÐø½«ÆäÊäÈëÏÂÒ»²ã½øÐÐÑµÁ·,ÕâÍùÍù»á´òÆÆÔ­ÏÈµÄ×îÓÅ×´Ì¬, 
²»½ö¿ÉÄÜÒý·¢¹ýÄâºÏ,»¹»áÀË·Ñ¼ÆËãÊ±¼äºÍ×ÊÔ´¡£

ResNetÍêÕû½á¹¹Ö÷ÒªÓÉ¶à¸öBasicBlock»òBotleNeckÄ£¿é¹¹³É,»ùÓÚBasicBlock 
µÄResNetÈçÍ¼3-5ËùÊ¾¡£¿ÉÒÔ´ÓÍ¼ÖÐ·¢ÏÖÔÚ²»Í¬BasicBlockÖ®¼äµÄshortcutÎªÐéÏß,Õâ
ÊÇÒòÎªÔÚ²»Í¬BasicBlockÖ®¼äÌØÕ÷¾ØÕó³ß´ç´óÐ¡»á¼õÐ¡Ò»°ë,ÓÉÓÚ
x 
ÓëF(x)ÐèÒª¾ßÓÐ
ÏàÍ¬µÄÎ¬¶È,Òò´Ë
x 
ÐèÒªÍ¨¹ý1¡Á1¾í»ý²ã½øÐÐ½µÎ¬¡£ÆäËûResNetµÄÍøÂç½á¹¹²ÎÊýÈç
±í3-3ËùÊ¾¡£


µÚ3ÕÂ ¾­µä¾í»ýÉñ¾­ÍøÂç 55 
Í¼3-5 ResNet18ÍøÂç½á¹¹
±í3-3 ÆäËûResNetµÄÍøÂç½á¹¹²ÎÊý
ÍøÂç²ãÊä³ö´óÐ¡18²ã34²ã50²ã101²ã152²ã
conv1 112¡Á112 64¸ö7¡Á7¾í»ýºË,²½·ùÎª2 
conv2_x 56¡Á56 
3¡Á3×î´ó³Ø»¯,²½·ùÎª2 
3¡Á3,64 
3¡Á3,64 [ ]¡Á3 3¡Á3,64 
3¡Á3,64 [ ]¡Á3 
1¡Á1,64 
3¡Á3,64 
1¡Á1,256 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á3 
1¡Á1,64 
3¡Á3,64 
1¡Á1,256 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á3 
1¡Á1,64 
3¡Á3,64 
1¡Á1,256 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á3

Ðø±í 
56 Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
ÍøÂç²ãÊä³ö´óÐ¡18²ã34²ã50²ã101²ã152²ã
conv3_x 28¡Á28 3¡Á3,128 
3¡Á3,128 [ ]¡Á2 3¡Á3,128 
3¡Á3,128 [ ]¡Á4 
1¡Á1,128 
3¡Á3,128 
1¡Á1,512 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á4 
1¡Á1,128 
3¡Á3,128 
1¡Á1,512 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á4 
1¡Á1,128 
3¡Á3,128 
1¡Á1,512 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á8 
conv4_x 14¡Á14 3¡Á3,256 
3¡Á3,256 [ ]¡Á2 3¡Á3,256 
3¡Á3,256 [ ]¡Á6 
1¡Á1,256 
3¡Á3,256 
1¡Á1,1024 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á6 
1¡Á1,256 
3¡Á3,256 
1¡Á1,1024 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á23 
1¡Á1,256 
3¡Á3,256 
1¡Á1,1024 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á36 
conv5_x 7¡Á7 3¡Á3,512 
3¡Á3,512 [ ]¡Á2 3¡Á3,512 
3¡Á3,512 [ ]¡Á3 
1¡Á1,512 
3¡Á3,512 
1¡Á1,2048 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á3 
1¡Á1,512 
3¡Á3,512 
1¡Á1,2048 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á3 
1¡Á1,512 
3¡Á3,512 
1¡Á1,2048 
¨¦
.
¨º¨º¨º 
¨´
.
¨²¨²¨²
¡Á3 
1¡Á1 Æ½¾ù³Ø»¯,Êä³öÎ¬¶ÈÎª1000µÄÏßÐÔÍøÂç²ã,ÓÃSoftmax½øÐÐ·ÖÀà
FLOPs 1.8¡Á109 3.6¡Á109 3.8¡Á109 7.6¡Á109 11.3¡Á109 
.. 3.5 ÃÜ¼¯Á¬½ÓÍøÂç
DenseNetÔÚ2016ÄêÓÉ»ªÈËÑ§Õß»Æ¿¡µÈÌá³ö,²¢ÔÚCVPR2017ÉÏ»ñµÃ×î¼ÑÂÛÎÄ½±¡£
ÕâÖÖÉî¶È¾í»ýÉñ¾­ÍøÂç½è¼øÁËResNetµÄ²Ð²î½á¹¹,µ«Í¨¹ýÃÜ¼¯Á¬½Ó½øÒ»²½ÌáÉýÁËÍøÂç
ÐÔÄÜ¡£DenseNetµÄºËÐÄË¼ÏëÊÇÈÃÃ¿Ò»²ãÍøÂçÖ±½Ó½ÓÊÕÇ°ÃæËùÓÐ²ãµÄÌØÕ÷Í¼,²¢½«ÆäÊä³ö
×÷ÎªºóÐøËùÓÐ²ãµÄÊäÈë¡£ÕâÖÖÃÜ¼¯Á¬½Ó·½Ê½Ê¹µÃÍøÂçÄÜ¹»¸ü³ä·ÖµØÀûÓÃÇ³²ãÌØÕ÷,´Ó¶ø
ÌáÉýÕûÌå±íÏÖ¡£DenseNetµÄ½á¹¹ÓëResNetÓÐËù²»Í¬¡£ResNetµÄ²Ð²î½á¹¹Í¨³£Ó¦ÓÃÓÚ
Á½µ½Èý²ãµÄÍøÂçÖÐ,¶øDenseNetÔò½«Ã¿Ò»²ãµÄÊäÈëÓëÖ®Ç°ËùÓÐ²ãµÄÊä³ö°´Í¨µÀÎ¬¶È½ø
ÐÐÆ´½Ó,ÐÎ³ÉÐÂµÄÊäÈë,ÈçÍ¼3-6ËùÊ¾¡£
Í¼3-6 DenseNetÓëResNetµÄ²î±ð

µÚ3ÕÂ ¾­µä¾í»ýÉñ¾­ÍøÂç 57 
DenseNetµÄ¹Ø¼ü×é¼þ°üÀ¨DenseBlock(Dense¿é)ºÍTransition ²ã¡£Ò»¸öDenseBlock 
°üº¬¶à¸öBottleNeck½á¹¹,Ã¿¸öBottleNeckÒÀ´ÎÍ¨¹ýÅú¹éÒ»»¯¡¢ReLU ¼¤»îº¯Êý¡¢1¡Á1¾í»ý
²ãºÍ3¡Á3¾í»ý²ã´¦ÀíÊäÈëÊý¾Ý¡£Í¨¹ýÊ¹ÓÃ1¡Á1¾í»ý²ã,DenseNetÄÜ¹»ÓÐÐ§¼õÉÙ²ÎÊýÁ¿ºÍ
Í¨µÀÊýÁ¿¡£ÀýÈç,¿ÉÒÔ½«Ã¿¸öBottleNeckµÄÊä³öÍ¨µÀÊý´Ó32¼õÖÁ4¡£DenseNet-121~ 
DenseNet-264µÄ½á¹¹²ÎÊýÈç±í3-4ËùÊ¾¡£DenseNetµÄ»ù±¾ÍøÂç½á¹¹ÈçÍ¼3-7ËùÊ¾¡£
±í3-4 DenseNetµÄ½á¹¹²ÎÊý
ÍøÂç²ãÊä³ö´óÐ¡DenseNet-121 DenseNet-169 DenseNet-201 DenseNet-264 
¾í»ý112¡Á112 7¡Á7¾í»ý,²½·ùÎª2 
³Ø»¯56¡Á56 3¡Á3×î´ó³Ø»¯,²½·ùÎª2 
ÃÜ¼¯¿é
(1) 56¡Á56 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á6 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á6 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á6 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á6 
¹ý¶É²ã
(1) 
56¡Á56 1¡Á1¾í»ý
28¡Á28 2¡Á2Æ½¾ù³Ø»¯,²½·ùÎª2 
ÃÜ¼¯¿é
(2) 28¡Á28 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á12 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á12 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á32 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á12 
¹ý¶É²ã
(2) 
28¡Á28 1¡Á1¾í»ý
14¡Á14 2¡Á2×î´ó³Ø»¯,²½·ùÎª2 
ÃÜ¼¯¿é
(3) 14¡Á14 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á24 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á32 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á48 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á64 
¹ý¶É²ã
(3) 
14¡Á14 1¡Á1¾í»ý
7¡Á7 2¡Á2×î´ó³Ø»¯,²½·ùÎª2 
ÃÜ¼¯¿é
(4) 7¡Á7 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á16 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á32 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á32 1¡Á1¾í»ý
3¡Á3¾í»ý[ ]¡Á48 
·ÖÀà²ã1¡Á1 7¡Á7È«¾ÖÆ½¾ù³Ø»¯
È«Á¬½Ó²ãÊä³öÎ¬¶ÈÎª1000,ÓÃSoftmax½øÐÐ·ÖÀà
Í¼3-7 DenseNetµÄ»ù±¾ÍøÂç½á¹¹ 
Transition²ãÔÚDenseNetÖÐÆðµ½Ñ¹ËõÄ£ÐÍµÄ×÷ÓÃ¡£Æä½á¹¹°üÀ¨Åú¹éÒ»»¯¡¢ReLU ¼¤
»îº¯Êý¡¢1¡Á1¾í»ýÒÔ¼°2¡Á2Æ½¾ù³Ø»¯¡£Ê×ÏÈ,Í¨¹ý1¡Á1¾í»ý¼õÉÙÊä³öÍ¨µÀµÄÊýÁ¿,È»ºó
Í¨¹ý2¡Á2Æ½¾ù³Ø»¯²ã½µµÍÌØÕ÷Í¼µÄ³ß´ç¡£ÕâÑùÒ»À´,ÔÚ±£Ö¤Á¬½Ó²ãÊý´ó·ùÔö¼ÓµÄÍ¬Ê±,

58Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
Ä£ÐÍµÄ²ÎÊý²»»á¼±¾çÔö¼Ó,´Ó¶øÓÐÐ§·ÀÖ¹¹ýÄâºÏµÄ·¢Éú¡£
..3.6Éú³É¶Ô¿¹ÍøÂç
3.6.1Éú³É¶Ô¿¹ÍøÂç¸ÅÊö
Éú³É¶Ô¿¹ÍøÂç(GenerativeAdversarialNetwork,GAN)ÊÇÓÉIanGoodfellowµÈÓÚ
2014ÄêÌá³öµÄÒ»¸ö¾­µäÉî¶ÈÑ§Ï°Ä£ÐÍ,¶ÔÍ¼ÏñºÍÊÓÆµÉú³ÉµÈÈÎÎñ¾ßÓÐÖØÒªÒâÒå¡£³ýÁËÉú
³ÉÍ¼Ïñ,GAN»¹ÔÚÍ¼ÏñÖÊÁ¿ÌáÉý¡¢Í¼Ïñ·ç¸ñ»¯¡¢Í¼Ïñ×ÅÉ«ÒÔ¼°ÈËÁ³Éú³ÉµÈÈÎÎñÖÐ·¢»ÓÖØ
Òª×÷ÓÃ¡£GANÖ÷ÒªÓÉÉú³ÉÍøÂçºÍÅÐ±ðÍøÂç×é³É,Éú³ÉÍøÂçÊäÈëµÄÊÇËæ»úÔëÉù²¢Êä³öÒ»
¸ö¼ÙÍ¼Ïñ,¶øÅÐ±ðÍøÂçÔòÊÇÓÃÀ´ÅÐ±ðÉú³ÉÍ¼ÏñµÄÕæ¼Ù,Êä³öµÄÊÇÊäÈëÍ¼Æ¬ÎªÕæÊµÍ¼Æ¬µÄ¸Å
ÂÊ,±ÈÈçµ±¸ÅÂÊÎª1ÔòÒ»¶¨ÎªÕæÊµÍ¼Æ¬,ÈçÍ¼3-8ËùÊ¾¡£µ«ÊÇÔÚÕâÁ½¸öÍøÂç¹²Í¬ÑµÁ·Ê±, 
ÅÐ±ðÍøÂç¶ÔÉú³ÉÍøÂçÎªÕæÊµÍ¼Æ¬µÄÔ¤¹À¸ÅÂÊÎª0.5Ê±ÔòÎª×î¼Ñ,´ËÊ±ÒâÎ¶×ÅÅÐ±ðÍøÂçÒÑ
¾­ÎÞ·¨±æ±ð,Éú³ÉÍøÂçµÄÍ¼ÏñÒÑ½Ó½üÓÚÕæÊµÍ¼Æ¬,ÕâÁ½¸öÍøÂçµÄÑµÁ·Ç÷ÓÚÆ½ºâ×´Ì¬¡£
Í¼3-
8 
GAN 
µÄ»ù±¾½á¹¹

3.2 
Éú³É¶Ô¿¹ÍøÂçÑµÁ·¹ý³Ì
6.
GAN¿ÉÒÔ´ÓÀíÂÛÉÏÖ¤Ã÷Æä´æÔÚÈ«¾Ö×îÓÅÖµ,µ«ÊÇÓÉÓÚÊÂÏÈÎÞ·¨È·¶¨ÕæÊµÍ¼Æ¬·Ö²¼
º¯ÊýºÍÉú³ÉÍøÂçÑµÁ·³öÀ´µÄ¼ÙÍ¼Æ¬·Ö²¼º¯Êý,Òò´ËÐèÒªÓÃÊ½(3-5)Ìæ´ú¡£

gD(xi)
+ 
g(1-D(G(i))) (5)

S= 
1lo1loz3

mi==

ÆäÖÐ,D(ÎªÅÐ±ðº¯Êý;z)¦²(m) ³Éº¯Êý;¦²Êµ(1) (m) z 
ÎªÔëÉùÊý¾Ý¡£Ä¬ÈÏÇé¿öÏÂ,

x) G(ÎªÉú(1) xÎªÕæ(m) Êý¾Ý;¶ÔÊýº¯
ÊýµÄµ×ÊýÍ¨³£ÊÇ×ÔÈ»Êý¡£ÑµÁ·Ä¿±êÊÇÊ¹¸Ã±í´ïÊ½Öµ´ïµ½×î´ó¡£ÔÚ¾ßÌåËã·¨²½ÖèÖÐ,Ã¿Ò»ÂÖÃ¿
Ò»´ÎÑµÁ·Ê×ÏÈ»á·Ö±ð´ÓÏÈÑéÔëÉùÊý¾Ý¼¯ºÍÕæÊµÍ¼ÏñÊý¾Ý¼¯ÖÐËæ»ú¹À¼Æ»ñµÃ
N 
¸öÑù±¾,È»ºó°´
ÕÕÉÏÊ½ÌÝ¶È¸üÐÂÅÐ±ðÍøÂçµÄ²ÎÊý,¸üÐÂÍêºóÓÖ°´ÕÕÊ½(-ÌÝ¶È¸üÐÂÉú³ÉÄ£ÐÍ²ÎÊý¡£

36) 
S= ¦²(m) lg(G(i))) 36)

1 o1-D(z(

=

ÐèÒª×¢ÒâµÄÊÇ,GANµÄÅÐ±ðÍøÂç(m) ºÍ(1) Éú³ÉÍøÂçÐèÒªÍ¬²½,Ä³Ò»¸öÍøÂç¹ýÔçÊÕÁ²¶¼»áµ¼
ÖÂÁíÍâÒ»¸öÍøÂçÎÞ·¨¼ÌÐø¸üÐÂÑ§Ï°¡£

3.3 
Éú³É¶Ô¿¹ÍøÂçµÄ·¢Õ¹
6.
GAN¿ÉÒÔ±»ÊÓÎªÒ»ÖÖÄ£ÐÍÈÚºÏµÄ·½·¨,Òò´Ë×ÔÆäµ®ÉúÒÔÀ´,ÑÜÉú³öÁËÖÚ¶à±äÌåºÍ¸Ä


µÚ3ÕÂ¾­µä¾í»ýÉñ¾­ÍøÂç59 

½øÄ£ÐÍ¡£ÀýÈç,2016Äê,RadfordµÈ[52]Ìá³öÁËÉî¶È¾í»ýÉú³É¶Ô¿¹ÍøÂç(DepConvolutional 
GenerativeAdversarialNetwork,DCGAN )¡£ÔÚDCGANÖÐ,Éú³ÉÍøÂçºÍÅÐ±ðÍøÂç¾ù²ÉÓÃ
±ê×¼µÄ¾í»ýÉñ¾­ÍøÂç,ÕâÊ¹µÃGANÔÚÍ¼ÏñÉú³ÉÈÎÎñÖÐ±íÏÖ³öÉ«¡£Í¬Ê±,ÓÉÓÚGANÄ£ÐÍ
µÄÁé»îÐÔ,Éú³ÉÍøÂçºÍÅÐ±ðÍøÂç¿ÉÒÔÓÃÆäËûÉñ¾­ÍøÂçÌæ´ú,ÎªÄ£ÐÍµÄ½øÒ»²½¸Ä½øÌá¹©ÁË¹ã
À«µÄ¿Õ¼ä¡£Õë¶ÔÔ­Ê¼GAN²»ÄÜÉú³É¾ßÓÐÌØ¶¨ÊôÐÔµÄÍ¼Æ¬µÄÎÊÌâ,MehdiMirzaµÈ[53]Ôò
Ìá³öÁËÌõ¼þÉú³É¶Ô¿¹ÍøÂç(ConditionalGenerativeAdversarialNetwork,CGAN),CGAN 
ÊÇ¾­µäµÄÌõ¼þÉú³É¶Ô¿¹Ê½ÍøÂç,¸ÃÄ£ÐÍ½«Àà±ð±êÇ©·Ö±ðºÍÔëÉùÒÔ¼°ÕæÊµÍ¼ÏñÊý¾Ý×éºÏÆð
À´×÷ÎªÉú³ÉÍøÂçºÍÅÐ±ðÍøÂçµÄÊäÈë,Ïàµ±ÓÚÍ¨¹ýÀà±ðÊôÐÔÔ¼ÊøÁËÉú³ÉÄÚÈÝ¡£GAN³ýÁË
ÓëCNNÍøÂç½áºÏÓÃÓÚÍ¼Ïñ,Ò²¿ÉÒÔÓëRNNµÈÍøÂç½á¹¹½áºÏÓÃÓÚÐòÁÐÊý¾Ý¡£Ê±¼äÉú³É¶Ô
¿¹ÍøÂç(TimeGenerativeAdversarialNetwork,TimeGAN)[54]¾ÍÊÇµäÐÍµÄÊ±ÐòÐòÁÐÉú³É
¶Ô¿¹ÍøÂç,ÆäÅÐ±ðÉú³ÉÍøÂç¾ùÓÉÃÅ¿ØÑ­»·µ¥Ôª(GatedRecurentUnit,GRU)[55]¹¹³É¡£´Ë
Íâ,GANµÄÑÜÉúÄ£ÐÍÖÖÀà·±¶à,ÕâÀï²»ÔÙÖðÒ»ÁÐ¾Ù¡£¸ÐÐËÈ¤µÄ¶ÁÕß¿ÉÒÔ×ÔÐÐ²éÕÒÏà¹Ø×Ê
ÁÏ,ÒÔ½øÒ»²½ÁË½âÕâÐ©Ä£ÐÍµÄÌØµãºÍÓ¦ÓÃ¡£

..3.7 
Transformer 

3.1 
Tasomr¸ÅÊö
7.rnfre

Transformer[48]Ä£ÐÍÔ´ÓÚ¹È¸è¹«Ë¾µÄ¾­µäÂÛÎÄAtetinisal 
yourned,ÆäÖ÷ÒªÓÉ
±àÂëÆ÷ºÍ½âÂëÆ÷Á½¸ö×é¼þ¹¹³É,ÆäÕûÌå½á¹¹ÈçÍ¼3-9ËùÊ¾¡£(o) (n) 


Í¼3-
9 
TransformerµÄÕûÌå½á¹¹


60 Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
TransformerÄ£ÐÍÖÐµÄ±àÂëÆ÷µ¥ÔªÓÉ¶àÍ·×¢ÒâÁ¦»úÖÆºÍÇ°À¡Éñ¾­ÍøÂç×é³É;½âÂëÆ÷
µ¥ÔªÔòÓÉÕÚÑÚ¶àÍ·×¢ÒâÁ¦»úÖÆ¡¢±àÂëÆ÷-½âÂëÆ÷×¢ÒâÁ¦»úÖÆºÍÇ°À¡Éñ¾­ÍøÂç¹¹³É¡£ÔÚÕâÐ©
×é¼þÖÐ,Ã¿¸öÍøÂç²ã¶¼²ÉÓÃÁË²Ð²îÁ¬½Ó,²¢ÔÚÊä³öÖÁÏÂÒ»²ãÖ®Ç°½øÐÐ²ã¹éÒ»»¯´¦Àí¡£
3.7.2 ×Ô×¢ÒâÁ¦»úÖÆ
±àÂëÆ÷ºÍ½âÂëÆ÷¶¼°üº¬×Ô×¢ÒâÁ¦½á¹¹,ÕâÊÇTransformerµÄºËÐÄ¼ÆËã»úÖÆ,ÓÃÓÚ¸üºÃ
µØÁ¿»¯ÉÏÏÂÎÄÏà¹ØÐÅÏ¢¡£×Ô×¢ÒâÁ¦»úÖÆÀàËÆÓÚÈËÀàµÄ×¢ÒâÁ¦»úÖÆ,ÄÜ¹»¾Û½¹ÓÚÖØÒªÐÅÏ¢, 
Í¬Ê±ºöÂÔ²»Ïà¹ØµÄÔªËØ¡£×Ô×¢ÒâÁ¦µÄ¾ßÌå¼ÆËã·½Ê½ÈçÍ¼3-10ËùÊ¾¡£
Í¼3-10 ×Ô×¢ÒâÁ¦µÄ¾ßÌå¼ÆËã·½Ê½
¸Ã½á¹¹Ê×ÏÈ»á³õÊ¼»¯3¸öÈ¨ÖØ¾ØÕó²¢ÓëÊäÈë¾ØÕóÏà³ËÉú³É²éÑ¯¾ØÕóQ¡¢¼ü¾ØÕóK ºÍ
Öµ¾ØÕóV,È»ºóQ ºÍK ½øÐÐµã³Ë²¢³ýÒÔÎ¬¶ÈµÄÆ½·½¸ù,ÕâÒ»²½µÄ¾ØÕóÏà³ËµÃµ½µÄ½á¹ûÊÇ
µ¥´ÊÖ®¼äµÄÏàËÆ¶È,·´Ó³³öÁËµ¥´ÊÖ®¼äµÄ¹ØÏµ¡£¶Ô½á¹û½øÐÐSoftmax´¦ÀíÔÙ³ËÒÔV,ÕâÒ»
²½¼ÆËã³öµÄ×Ô×¢ÒâÁ¦Öµ×÷Îª´ÊÏòÁ¿,ÄÜ¹»¸üºÃµØ°üº¬´ÊÓë¾äÖÐ´ÊµÄÏà¹ØÐÔ¡£Æä¼ÆËãÈç
Ê½(3-7)ËùÊ¾: 
Attention(Q,K,V)= SoftmaxQKT 
dk 
.
¨¨ .
.
. ¡Â
.
¨¨ .
.
.¡ÂV .
¨¨ . 
(3-7) 
TransformerÊ¹ÓÃ½Ï¶àµÄÊÇ¶àÍ·×¢ÒâÁ¦»úÖÆ,ÔÚÕâ¸ö½á¹¹ÖÐ,»á½«¶à¸ö×¢ÒâÁ¦»úÖÆµÄ
Êä³ö½á¹ûÆ´½ÓÆðÀ´,ÔÙÍ¨¹ýÏßÐÔ²ãÍê³ÉÏßÐÔ±ä»»¡£Ã¿¸ö×¢ÒâÁ¦»úÖÆµÄ²ÎÊý²»Í¬,ÕâÒâÎ¶×Å
Ã¿¸ö×¢ÒâÁ¦»úÖÆ¹Ø×¢µÄÎ»ÖÃÒ²²»Í¬,Òò´Ë¶àÍ·×¢ÒâÁ¦»úÖÆÄÜ¹»ÍÚ¾ò²¢ÕûºÏ¸ü¶àÌØÕ÷ÐÅÏ¢
µ½´ÊÏòÁ¿ÖÐ,Í¬Ê±½µµÍÁËÃ¿¸ö×¢ÒâÁ¦»úÖÆµÄÎ¬¶È,Í¨¹ý²¢ÐÐÔËËã¼Ó¿ìÁË¼ÆËãËÙ¶È¡£
ÔÚ½âÂëÆ÷ÖÐ,»¹°üº¬Ò»²ã±àÂëÆ÷-½âÂëÆ÷×¢ÒâÁ¦»úÖÆ¡£ÔÚÕâÒ»»úÖÆÖÐ,K ºÍV ¾ØÕóÊÇ
ÓÉ±àÂëÆ÷µÄÊä³öÖµ·Ö±ð³ËÒÔÁ½¸öÈ¨ÖØ¾ØÕóÉú³ÉµÄ,¶øQ ¾ØÕóÔòÓÉ½âÂëÆ÷ÖÐµÄ¶àÍ·×¢ÒâÁ¦
»úÖÆÊä³öÖµÉú³É¡£µ±µÃµ½Q¡¢K¡¢V ¾ØÕóºó,¾Í¿ÉÒÔ°´ÕÕ×¢ÒâÁ¦»úÖÆµÄ¼ÆËã·½Ê½Éú³É×îÖÕ
µÄ×¢ÒâÁ¦Öµ¡£

µÚ3ÕÂ¾­µä¾í»ýÉñ¾­ÍøÂç613.7.3TransformerµÄÊäÈë
ÔÚTransformerÄ£ÐÍÖÐ,±àÂëÆ÷ºÍ½âÂëÆ÷µÄÊäÈë²»½öÓÉ´ÊÏòÁ¿¹¹³É,»¹ÐèÒª¼ÓÉÏÎ»ÖÃ
±àÂë¡£Î»ÖÃ±àÂëµÄ¼ÆËã¹«Ê½ÈçÊ½(3-8)ËùÊ¾: 
PE(pos,2i)=sin(pos/10002i/d)
PE(pos,2i+1)=cos(pos/10002i/d) (3-8) 
ÆäÖÐ,pos±íÊ¾µ¥´ÊÔÚ¾ä×ÓÖÐµÄ¾ø¶ÔÎ»ÖÃ,pos=0,1,2,¡­, ¶ÔÓÚ¾ä×ÓÖÐµÄµÚi¸öµ¥´Ê,Æä
pos=i-1;d±íÊ¾´ÊÏòÁ¿µÄÎ¬¶È;2iºÍ2i+1 ·Ö±ð±íÊ¾Å¼ÊýºÍÆæÊýÎ»ÖÃµÄÎ¬¶È,i±íÊ¾´Ê
ÏòÁ¿ÖÐµÄµÚiÎ¬¡£Ö®ËùÒÔÊ¹ÓÃÈý½Çº¯Êý½øÐÐÎ»ÖÃ±àÂë,ÊÇÒòÎªÒ»¸ö´ÊÔÚ²»Í¬Óï¾³ÖÐ³öÏÖ, 
¿ÉÄÜ¾ßÓÐ²»Í¬µÄº¬Òå¡£¶øÈý½Çº¯ÊýÄÜ¹»ºÜºÃµØ²¶×½´ÊÓïÖ®¼äµÄÏà¶ÔÎ»ÖÃÐÅÏ¢¡£µ±´ÊÏòÁ¿
¼ÓÉÏÎ»ÖÃ±àÂëÏòÁ¿ºó,²»Í¬Î»ÖÃµÄÍ¬Ò»´ÊÓïµÄ´ÊÏòÁ¿¾Í»áÓÐËùÇø±ð,´Ó¶ø°ïÖúÄ£ÐÍ¸üºÃµØ
Ñ§Ï°²¢Àí½â´ÊÓïÖ®¼äµÄÏà»¥¹ØÏµ,ÌáÉýÄ£ÐÍ¶Ô´ÊÒåºÍÓï¾äÂß¼­Ë³ÐòµÄÀí½âÄÜÁ¦¡£
¶ÔÓÚ½âÂëÆ÷À´Ëµ,Ã¿´ÎÊäÈë¾ØÕó¶¼»áÌí¼ÓÉÏÒ»¸ö×ÔÉíÔ¤²âµÄ´ÊÏòÁ¿,×î¿ªÊ¼ÓÉÓÚÃ»ÓÐ
Ô¤²âÖµÒò´ËÖ»ÓÐÆðÊ¼·û,¼´ÆðÊ¼·ûÏòÁ¿¼ÓÉÏÎ»ÖÃ±àÂë¡£Õâ±íÃ÷TransformerÊÇÒ»ÖÖ×Ô»Ø
¹éÄ£ÐÍ,ÀûÓÃÒÑÉú³ÉµÄÔ¤²âÖµÀ´Éú³ÉÏÂÒ»¸öÔ¤²âÖµ¡£
3.7.4ÑÚÂë»úÖÆ
ÑÚÂë»úÖÆÊÇTransformerÖÐµÄÒ»ÖÖÖØÒª¼¼Êõ,ËüÓÃÓÚ¶ÔÄ³Ð©Öµ½øÐÐÑÚ¸Ç,·ÀÖ¹ËüÃÇÔÚ
²ÎÊý¸üÐÂÊ±²úÉúÓ°Ïì¡£TransformerÄ£ÐÍÖÐÉæ¼°Á½ÖÖÖ÷ÒªµÄÑÚÂë[51]:Ìî³äÑÚÂëºÍÐòÁÐ

ÑÚÂë¡£

Ìî³äÑÚÂëÖ÷ÒªÓÃÓÚ½â¾ö×Ô×¢ÒâÁ¦»úÖÆ¼ÆËãÖÐÊäÈë¾ØÕó³ß´ç²»Ò»ÖÂµÄÎÊÌâ¡£ÔÚ×ÔÈ»Óï
ÑÔ´¦ÀíÖÐ,¾ä×ÓµÄ³¤¶ÈÍ¨³£²»Ò»ÖÂ¡£¶ÔÓÚ½Ï¶ÌµÄ¾ä×Ó,ÐèÒªÓÃÁãÌî³äÀ´²¹Æë;¶ÔÓÚ½Ï³¤µÄ
¾ä×Ó,±£Áô×ó²àÄÚÈÝ,¶àÓà²¿·ÖÓÃÁãÌæ´ú¡£È»¶ø,Ö±½ÓÊ¹ÓÃÁãÌî³äÔÚSoftmax²Ù×÷ÖÐ¿ÉÄÜ
»áµ¼ÖÂÕâÐ©ÇøÓò²úÉúÓÐÐ§µÄÌØÕ÷Öµ¡£ÎªÁË½â¾öÕâ¸öÎÊÌâ,ÔÚ½øÐÐSoftmax²Ù×÷Ö®Ç°,»á
¼ÓÉÏÒ»¸öÆ«ÖÃ¾ØÕó,ÆäÖÐÁãÖµÇøÓò¶ÔÓ¦Ô­¾ØÕóµÄÓÐÐ§ÇøÓò,¶øÎÞÇî´óÖµ¶ÔÓ¦ÎÞÐ§ÇøÓò,´Ó
¶øÊ¹ÎÞÐ§ÇøÓò²»»áÓ°Ïì¼ÆËã½á¹û[56]¡£

ÔÚ½âÂëÆ÷µÄÕÚÑÚ¶àÍ·×¢ÒâÁ¦»úÖÆÖÐ,³ýÁËÊ¹ÓÃÌî³äÑÚÂëÍâ,»¹»áÊ¹ÓÃÐòÁÐÑÚÂë¡£ÔÚÑµ
Á·¹ý³ÌÖÐ,ÎªÁË·ÀÖ¹Ä£ÐÍ¡°×÷±×¡±,ÐèÒªÑÚ¸Ç¾ä×ÓÖÐ´ýÔ¤²âµÄËùÓÐ´Ê¡£¾ßÌå·½·¨ÊÇÔÚ¶ÔQ¡¢
K¡¢
V 
¾ØÕóÍê³ÉËõ·Åµã»ýºó,¶ÔµÃµ½µÄ¾ØÕó½øÐÐ´¦Àí,½«¾ØÕóµÄÉÏÈý½Ç²¿·ÖÔªËØ×ª»¯Îª¸º
ÎÞÇîÖµ,È»ºóÔÙ½øÐÐSoftmax²Ù×÷¡£¿ÉÒÔ¿´µ½²¢²»ÊÇÖ±½ÓÑÚ¸Ç´ýÔ¤²â´ÊµÄ´ÊÏòÁ¿,ÒòÎª
Ìî³äÑÚÂëÒÑ¾­½øÐÐÁËÊý¾Ý¶ÔÆë,ÔÙ¶Ô´ýÔ¤²â´Ê½øÐÐÎÞÐ§»¯´¦Àí¿ÉÄÜ»áËðÊ§Ò»²¿·ÖÐÅÏ¢¡£
¶øQ¡¢K¡¢
V 
¾ØÕóÍê³ÉËõ·Åµã»ýºóµÃµ½µÄ¾ØÕó¿ÉÒÔ¿´×÷ÈÎÒâÁ½¸ö´ÊÖ®¼äµÄÏàËÆ¶È¾ØÕó,¶Ô
Æä½øÐÐÉÏÊö²Ù×÷ºó,Ä£ÐÍÖ»ÖªµÀÄ³¸öµ¥´ÊÓëÆäÖ®Ç°µÄµ¥´ÊµÄÏàËÆ¶È¡£ÕâÑùÄ£ÐÍ±ãÄÜÔÚ²»
ËðÊ§Ô­Ê¼ÐÅÏ¢µÄÇé¿öÏÂ¶Ô¾ä×Ó½øÐÐÑÚ¸Ç[57]¡£

3.7.5 
TransformerÍøÂç
½üÄêÀ´,¾í»ýÉñ¾­ÍøÂçÔÚÍ¼ÏñÊÓ¾õÁìÓòÖð½¥Óöµ½Æ¿¾±,¶øTransformerÔÚ×ÔÈ»ÓïÑÔ´¦
ÀíÁìÓòµÄ³É¹¦ÒýÆðÁË¹ã·º¹Ø×¢¡£½«TransformerÓ¦ÓÃÓÚÍ¼ÏñÊÓ¾õÁìÓò³ÉÎªÁËÐÂµÄ·¢Õ¹·½


62 Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
Ïò¡£ÀíÂÛÉÏ,×¢ÒâÁ¦»úÖÆÓëÈËÀàÊÓ¾õÓÐÏàËÆÖ®´¦;ÔÚÊµÑéÖÐ,TransformerÒ²Õ¹ÏÖÁËÐí¶à
ÓÅÊÆºÍÇ±Á¦¡£
2020Äê,ÊÓ¾õTransformer(VisionTransformer,ViT)[58]½«TransformerÓ¦ÓÃÓÚÍ¼
ÏñÁìÓò,ÓÃTransformerÌæ´úÁË±ê×¼¾í»ýÉñ¾­ÍøÂç¡£¸ÃÄ£ÐÍ½«Í¼Ïñ×ª»»ÎªÈô¸É¸öÖ¸¶¨´ó
Ð¡µÄÍ¼Ïñ¿é,ÔÙ½«Ã¿¸öÍ¼¿é×ª»»ÎªÒ»Î¬ÏòÁ¿(ÀàËÆÓÚ´ÊÏòÁ¿),È»ºóÍ¨¹ýTransformerµÄ±à
ÂëÆ÷ºÍ¶à²ã¸ÐÖª»ú½øÐÐ·ÖÀà¡£ÔÚImageNetÍ¼Ïñ·ÖÀàÈÎÎñÖÐ,¸ÃÄ£ÐÍÈ¡µÃÁË88.55%µÄ
Top-1×¼È·ÂÊ,³¬Ô½ÁËResNetÏµÁÐÄ£ÐÍ,ÑéÖ¤ÁËTransformerÔÚÍ¼ÏñÁìÓòÓ¦ÓÃµÄ¿ÉÐÐÐÔ¡£
2021Äê,LiuµÈ[59]Ìá³öÁËSwinTransformer,ÓëViT Ïà±ÈÐÔÄÜÓÐËùÌáÉý¡£µ±Ç°, 
TransformerÔÚÄ¿±ê¼ì²â¡¢Í¼Ïñ·Ö¸î¡¢Í¼Ïñ·ÖÀàÒÔ¼°Í¼ÏñÊÓÆµ³¬·Ö±æÂÊµÈÈÎÎñÖÐ¾ùÓÐÓ¦
ÓÃ¡£ÀýÈç,Ä¿±ê¼ì²âµÄDETR (Detection Transformer)[60] Ä£ÐÍÈÚºÏÁËCNN ºÍ
TransformerÁ½ÖÖÄ£ÐÍ,¶øÍ¼Ïñ·Ö¸îµÄSETR(SemanticSegmentationTransformer)[61] 
Ä£ÐÍÒ²½áºÏÁËÕâÁ½ÖÖÄ£ÐÍ¡£ÕâÐ©Ä£ÐÍÔÚÊµÑéÖÐ¾ù±íÏÖ³öÉ«¡£Èç¹û¶ÁÕß¶ÔTransformerÔÚ
Í¼ÏñÁìÓòµÄÓ¦ÓÃ¸ÐÐËÈ¤,¿ÉÒÔ×ÔÐÐ²éÔÄÏà¹Ø×ÊÁÏ¡£
.. 3.8 Àý Ìâ
ÀýÌâ3-1 
Ê¹ÓÃPyTorchÊµÏÖAlexNet,²¢¶ÔFashionMNIST Êý¾Ý¼¯½øÐÐ·ÖÀà(±àÐ´´úÂëÍê³É
ÒÔÏÂÈÎÎñ)¡£
(1)¼ÓÔØFashionMNISTÊý¾Ý¼¯²¢½øÐÐÔ¤´¦Àí¡£
(2)¶¨ÒåAlexNetÄ£ÐÍ¡£
(3)Ê¹ÓÃSGDÓÅ»¯Æ÷ºÍ½»²æìØËðÊ§º¯ÊýÀ´ÑµÁ·Ä£ÐÍ¡£
(4)ÔÚÑµÁ·¹ý³ÌÖÐÊä³öÃ¿¸öepochµÄÆ½¾ùËðÊ§¡£
(5)ÔÚ²âÊÔ¼¯ÉÏÆÀ¹ÀÄ£ÐÍµÄ×¼È·ÐÔ,²¢Êä³ö²âÊÔ×¼È·ÂÊ¡£
½â´ð: 
(1)¼ÓÔØFashionMNISTÊý¾Ý¼¯²¢½øÐÐÔ¤´¦Àí¡£ 
1. import torch 
2. import torch.nn as nn 
3. import torch.optim as optim 
4. import torchvision.transforms as transforms 
5. from torch.utils.data import DataLoader 
6. from torchvision.datasets import FashionMNIST 
7. import matplotlib.pyplot as plt 
8. transform = transforms.Compose([ 
9. transforms.Resize((227, 227)), #½«Í¼Ïñ´óÐ¡µ÷ÕûÎª(227, 227) 
10. transforms.ToTensor(), 
11. transforms.Normalize((0.5,), (0.5,)) 
12. ]) 
13. train_dataset = FashionMNIST(root= './data', train= True, download= True, 
transform=transform)

µÚ3ÕÂ ¾­µä¾í»ýÉñ¾­ÍøÂç 63 
14. test_dataset = FashionMNIST(root= './data', train= False, download= True, 
transform=transform) 
15. train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True) 
16. test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False) 
(2)¶¨ÒåAlexNetÄ£ÐÍ¡£ 
1. class AlexNet(nn.Module): 
2. def __init__(self, num_classes=10): 
3. super(AlexNet, self).__init__() 
4. self.features = nn.Sequential( 
5. nn.Conv2d(1, 64, kernel_size=11, stride=4, padding=2), 
6. nn.ReLU(inplace=True), 
7. nn.MaxPool2d(kernel_size=3, stride=2), 
8. nn.Conv2d(64, 192, kernel_size=5, padding=2), 
9. nn.ReLU(inplace=True), 
10. nn.MaxPool2d(kernel_size=3, stride=2), 
11. nn.Conv2d(192, 384, kernel_size=3, padding=1), 
12. nn.ReLU(inplace=True), 
13. nn.Conv2d(384, 256, kernel_size=3, padding=1), 
14. nn.ReLU(inplace=True), 
15. nn.Conv2d(256, 256, kernel_size=3, padding=1), 
16. nn.ReLU(inplace=True), 
17. nn.MaxPool2d(kernel_size=3, stride=2), 
18. ) 
19. self.avgpool = nn.AdaptiveAvgPool2d((6, 6)) 
20. self.classifier = nn.Sequential( 
21. nn.Dropout(), 
22. nn.Linear(256 * 6 * 6, 4096), 
23. nn.ReLU(inplace=True), 
24. nn.Dropout(), 
25. nn.Linear(4096, 4096), 
26. nn.ReLU(inplace=True), 
27. nn.Linear(4096, num_classes), 
28. ) 
29. def forward(self, x): 
30. x = self.features(x) 
31. x = self.avgpool(x) 
32. x = torch.flatten(x, 1) 
33. x = self.classifier(x) 
34. return x 
(3)Ê¹ÓÃSGDÓÅ»¯Æ÷ºÍ½»²æìØËðÊ§º¯ÊýÀ´ÑµÁ·Ä£ÐÍ¡£ 
1. device = torch.device("cuda" if torch.cuda.is_available() else "cpu") 
2. model = AlexNet(num_classes=10).to(device) 
3. criterion = nn.CrossEntropyLoss() 
4. optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

64 Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
(4)ÔÚÑµÁ·¹ý³ÌÖÐÊä³öÃ¿¸öepochµÄÆ½¾ùËðÊ§,ÈçÍ¼3-11ËùÊ¾¡£ 
1. #¼ÇÂ¼Ã¿¸öepoch µÄËðÊ§Öµ
2. loss_history = [] 
3. #4.ÑµÁ·Ä£ÐÍ²¢Êä³öÃ¿¸öepoch µÄÆ½¾ùËðÊ§
4. num_epochs = 10 
5. for epoch in range(num_epochs): 
6. model.train() 
7. running_loss = 0.0 
8. for images, labels in train_loader: 
9. images, labels = images.to(device), labels.to(device) 
10. optimizer.zero_grad() 
11. outputs = model(images) 
12. loss = criterion(outputs, labels) 
13. loss.backward() 
14. optimizer.step() 
15. running_loss += loss.item() 
16. epoch_loss = running_loss / len(train_loader) 
17. loss_history.append(epoch_loss) 
18. print(f"Epoch {epoch+1}, Loss: {running_loss / len(train_loader)}") 
19. #»æÖÆËðÊ§±ä»¯Í¼
20. plt.plot(range(1, num_epochs + 1), loss_history, marker='o') 
21. plt.xlabel('ÂÖÊý') 
22. plt.ylabel('ËðÊ§') 
23. plt.title('ÑµÁ·ËðÊ§') 
24. plt.grid(True) 
25. plt.show() 
Í¼3-11 ÑµÁ·¹ý³ÌµÄÃ¿¸öepochµÄÆ½¾ùËðÊ§
(5)ÔÚ²âÊÔ¼¯ÉÏÆÀ¹ÀÄ£ÐÍµÄ×¼È·ÐÔ¡£ 
1. model.eval()

µÚ3ÕÂ ¾­µä¾í»ýÉñ¾­ÍøÂç 65 
2. correct = 0 
3. total = 0 
4. with torch.no_grad(): 
5. for images, labels in test_loader: 
6. images, labels = images.to(device), labels.to(device) 
7. outputs = model(images) 
8. _, predicted = torch.max(outputs.data, 1) 
9. total += labels.size(0) 
10. correct += (predicted == labels).sum().item() 
11. print(f"Accuracy on test set: {100 * correct / total}%") 
ÀýÌâ3-2 
ÇëÊ¹ÓÃPyTorchÊµÏÖResNetÀ´¶ÔFashionMNIST Êý¾Ý¼¯½øÐÐ·ÖÀà(±àÐ´´úÂëÍê³É
ÒÔÏÂÈÎÎñ)¡£
(1)¼ÓÔØFashionMNISTÊý¾Ý¼¯²¢½øÐÐÔ¤´¦Àí¡£
(2)¶¨ÒåResNetÄ£ÐÍ¡£
(3)Ê¹ÓÃSGDÓÅ»¯Æ÷ºÍ½»²æìØËðÊ§º¯ÊýÀ´ÑµÁ·Ä£ÐÍ¡£
(4)ÔÚÑµÁ·¹ý³ÌÖÐÊä³öÃ¿¸öepochµÄÆ½¾ùËðÊ§¡£
(5)ÔÚ²âÊÔ¼¯ÉÏÆÀ¹ÀÄ£ÐÍµÄ×¼È·ÐÔ,²¢Êä³ö²âÊÔ×¼È·ÂÊ¡£
½â´ð: 
(1)¼ÓÔØFashionMNISTÊý¾Ý¼¯²¢½øÐÐÔ¤´¦Àí¡£ 
1. import torch 
2. import torch.nn as nn 
3. import torch.optim as optim 
4. import torchvision 
5. import torchvision.transforms as transforms 
6. from torchvision.datasets import FashionMNIST 
7. from torch.utils.data import DataLoader 
8. import matplotlib.pyplot as plt 
9. #¼ÓÔØFashionMNIST Êý¾Ý¼¯²¢½øÐÐÔ¤´¦Àí
10. transform = transforms.Compose([ 
11. transforms.ToTensor(), 
12. transforms.Normalize((0.5,), (0.5,)) 
13. ]) 
14. train_dataset = FashionMNIST(root= './data', train= True, download= True, 
transform=transform) 
15. test_dataset = FashionMNIST(root= './data', train= False, download= True, 
transform=transform) 
16. train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True) 
17. test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False) 
(2)¶¨ÒåResNetÄ£ÐÍ¡£ 
1. #¶¨ÒåResidual Block 
2. class ResidualBlock(nn.Module):

66 Éî¶ÈÑ§Ï°¼¼Êõ»ù´¡(Î¢¿Î°æ) 
3. def __init__(self, in_channels, out_channels, stride=1): 
4. super(ResidualBlock, self).__init__() 
5. self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size= 3, 
stride=stride, padding=1, bias=False) 
6. self.bn1 = nn.BatchNorm2d(out_channels) 
7. self.relu = nn.ReLU(inplace=True) 
8. self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, 
stride=1, padding=1, bias=False) 
9. self.bn2 = nn.BatchNorm2d(out_channels) 
10. self.downsample = None 
11. if stride != 1 or in_channels != out_channels: 
12. self.downsample = nn.Sequential( 
13. nn.Conv2d(in_channels, out_channels, kernel_size=1, 
stride=stride, bias=False), 
14. nn.BatchNorm2d(out_channels) 
15. ) 
16. def forward(self, x): 
17. identity = x 
18. out = self.conv1(x) 
19. out = self.bn1(out) 
20. out = self.relu(out) 
21. out = self.conv2(out) 
22. out = self.bn2(out) 
23. if self.downsample is not None: 
24. identity = self.downsample(x) 
25. out += identity 
26. out = self.relu(out) 
27. return out 
28. #¶¨ÒåResNet Ä£ÐÍ
29. class ResNet(nn.Module): 
30. def __init__(self, block, layers, num_classes=10): 
31. super(ResNet, self).__init__() 
32. self.in_channels = 64 
33. self.conv1 = nn.Conv2d(1, 64, kernel_size= 7, stride= 2, padding= 3, 
bias=False) 
34. self.bn1 = nn.BatchNorm2d(64) 
35. self.relu = nn.ReLU(inplace=True) 
36. self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1) 
37. self.layer1 = self.make_layer(block, 64, layers[0], stride=1) 
38. self.layer2 = self.make_layer(block, 128, layers[1], stride=2) 
39. self.layer3 = self.make_layer(block, 256, layers[2], stride=2) 
40. self.layer4 = self.make_layer(block, 512, layers[3], stride=2) 
41. self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) 
42. self.fc = nn.Linear(512, num_classes) 
43. def make_layer(self, block, out_channels, blocks, stride): 
44. layers = [] 
45. layers.append(block(self.in_channels, out_channels, stride)) 
46. self.in_channels = out_channels