µÚ6ÕÂÇ¿»¯Ñ§Ï°

6.Ç¿»¯Ñ§Ï°¸ÅÊö
1 

´Ó¼¼Êõ²ãÃæÉÏ½²,»úÆ÷Ñ§Ï°(machinelearning)ÎÞÒÉÊÇÈË¹¤ÖÇÄÜÑÐ¾¿µÄºËÐÄÁìÓòÖ®
Ò»,ÆäÑÐ¾¿¶¯»ú¾ÍÊÇÈÃ»úÆ÷¾ßÓÐÈËµÄÑ§Ï°ÄÜÁ¦ÒÔ±ãÊµÏÖÈË¹¤ÖÇÄÜ¡£ÎªÁËÊµÏÖÈË¹¤ÖÇÄÜ,ÖÇ
ÄÜ¿ØÖÆÊÇ²»¿É»òÈ±µÄ,ÀýÈç,ÖÇÄÜ»úÆ÷ÈËÔÚÖ´ÐÐÈÎÎñÊ±ÐèÒª¸ù¾Ý»·¾³±ä»¯×ö³öÏàÓ¦µÄ¾ö
²ß¡£»ùÓÚÖÇÄÜ»¯µÄÌåÏÖ,¸Ã¾ö²ß¾ø²»ÊÇÓÉ×¨¼Ò¹æ»®Íê³É,¶øÊÇ»úÆ÷ÈËÍ¨¹ýÓë»·¾³µÄ²»¶Ï½»
»¥»ñµÃ¾­ÑéÖªÊ¶×Ô·¢²úÉúµÄ¡£ÄÜ¹»ÊµÏÖÕâÖÖÖÇÄÜ¾ö²ß¿ØÖÆµÄÑ§Ï°·½·¨±ãÊÇÇ¿»¯Ñ§Ï°
(enocnerig,ËüÊÇ»úÆ÷Ñ§Ï°ÁìÓòÖÐµÄÖØÒªÑ§Ï°·½·¨Ö®Ò»¡£

rifremetlannRL), 

Ç¿»¯Ñ§Ï°³ýÁËÔÚÖÇÄÜ»úÆ÷ÈËÁìÓòµÃµ½ÁË¹ã·ºÓ¦ÓÃÒÔÍâ,»¹±»¹ã·ºÓ¦ÓÃÓÚÖÇÄÜµ÷¶ÈÏµ
Í³¡¢ÖÇÄÜ¶Ô»°ÏµÍ³¡¢´æ´¢ÏµÍ³¡¢ÖÇÄÜµçÍø¡¢ÖÇÄÜ½»Í¨ÏµÍ³¡¢¶àÖÇÄÜÌåÏµÍ³¡¢ÎÞÈË¼ÝÊ»³µ¡¢º½¿Õ
º½ÌìÏµÍ³¡¢ÓÎÏ·¼°Êý×ÖÒÕÊõÖÇÄÜÏµÍ³µÈÆäËûÖÇÄÜÏµÍ³¡£¿É¼û,Ç¿»¯Ñ§Ï°ÊÇ×îÓÐÏ£ÍûÊµÏÖÈË
¹¤ÖÇÄÜÕâ¸öÄ¿±êµÄÑ§Ï°·½·¨Ö®Ò»¡£

Ç¿»¯Ñ§Ï°×÷Îª½â¾öÏÖÊµÊÀ½çÎÊÌâµÄÖØÒªÑ§Ï°·½·¨,Ê¼ÖÕÊÇÑÐ¾¿ÕßÃÇ±¸ÊÜ¹Ø×¢µÄÑÐ¾¿ÈÈ
µã¡£×î½ü,¹È¸è¹«Ë¾µÄDepMindÍÅ¶ÓÔÚ¡¶×ÔÈ»¡·ÔÓÖ¾ÉÏ¹«²¼ÁËÄÜ¹»»÷°ÜÈËÀà×¨ÒµÍæ¼ÒµÄÓÎÏ·
ÖÇÄÜÌå,ÕâÒ»ÑÐ¾¿³É¹ûÁîÈË¹¤ÖÇÄÜ×¨¼ÒÕðº³,Ê¹µÃÇ¿»¯Ñ§Ï°ÔÙ´Î³ÉÎªµ±½ñÑÐ¾¿½¹µã¡£

Ç¿»¯Ñ§Ï°ÑÐ¾¿µÄÊÇÖÇÄÜÌå(agent)ÈçºÎ¸ù¾Ýµ±Ê±µÄ»·¾³×ö³ö½ÏºÃµÄ¾ö²ß,Ëü²»ÐèÒªÈÎ
ºÎÏÈÑéÖªÊ¶,Ò²ÎÞÐè×¨¼Ò¸ø¶¨×¼È·²Î¿¼±ê×¼,¶øÊÇÍ¨¹ýÓë»·¾³µÄ½»»¥À´»ñµÃÖªÊ¶,×ÔÖ÷µÄ
½øÐÐ¶¯×÷Ñ¡Ôñ,×îÖÕÕÒµ½Ò»¸öÊÊºÏµ±Ç°×´Ì¬µÄ×îÓÅ¶¯×÷Ñ¡Ôñ²ßÂÔ(policy),Ê¹µÃÔÚÕû¸ö¾ö
²ß¹ý³ÌÖÐµÃµ½×î´óµÄÀÛ»ý½±ÉÍ,ÈçÍ¼6-1ËùÊ¾¡£ÀýÈç,ÑµÁ·Ò»¸öÓÎÏ·ÖÇÄÜÌåÊ±,ÎªÁËÍê³É
ÓÎÏ·ÈÎÎñ,ÖÇÄÜÌå±ØÐë¶ÔÓÎÏ·»­ÃæÓÐËùÈÏÊ¶,¸ù¾ÝÓÎÏ·¾­ÑéÑ¡ÔñºÏÀíµÄ¶¯×÷,¶¯×÷Ñ¡Ôñ²Ù
×÷½áÊøºóÓÎÏ·»­Ãæ½øÈëÏÂÒ»Ö¡,ÖÇÄÜÌå»ñµÃ¹ý¹Ø»òµÃ·ÖµÈ½±ÉÍ¡£Èç´ËÑ­»·,Ö±µ½ÓÎÏ·½á
Êø¡£ÕâÀïµÄÓÎÏ·¾­ÑéÖ¸µÄÊÇ²ßÂÔ,¼´Ê²Ã´³¡¾°ÏÂÑ¡ÔñÊ²Ã´¶¯×÷¡£ÓÉ´Ë¿É¼û,ÎªÁËÊµÏÖÇ¿»¯
Ñ§Ï°µÄÄ¿±ê,ÒªÇóÖÇÄÜÌåÄÜ¹»¶ÔÖÜÎ§»·¾³ÓÐËùÈÏÖª,Àí½âµ±Ç°ËùÔÚ×´Ì¬,¸ù¾ÝÈÎÎñÒªÇó×ö
³ö·ûºÏµ±Ç°»·¾³Çé¾³µÄ¾ö²ß¡£


Í¼6-1 Ç¿»¯Ñ§Ï°

Ç¿»¯Ñ§Ï°ÊÇ½â¾ö»úÆ÷Ñ§Ï°ÁìÓòÖÐÐòÁÐ¾ö²ß¹ý³ÌµÄÑ§Ï°·¶Ê½,³ÉÎªÈË¹¤ÖÇÄÜÈÈµãÑÐ¾¿
·½ÏòÖ®Ò»¡£Ä¿Ç°,½â¾öÇ¿»¯Ñ§Ï°ÎÊÌâµÄ·½·¨Ö÷Òª°üÀ¨»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨Óë²ßÂÔ
¡¤63¡¤ 


ËÑË÷(Policysearch)Á½´óÖ÷ÒªËã·¨¡£

(1)»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨¡£»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨ÊÇÔçÔÚ20ÊÀ¼Í80Äê
´úÄ©¾Í±»Ìá³öÇÒµÃµ½¹ã·ºÊ¹ÓÃµÄ´«Í³Ç¿»¯Ñ§Ï°Ëã·¨,ÆäÖÐ×î¾ß´ú±íÐÔµÄËã·¨°üÀ¨
WatkinsÌá³öµÄQ-Learning¡¢SutonÌá³öµÄTDËã·¨¼°RummeryµÈÌá³öµÄSARSAËã
·¨¡£ÄÏ¾©´óÑ§µÄ¸ßÑô¼°MITµÄKaelblingµÈÈË¶Ô²ßÂÔµü´úËã·¨½øÐÐÁËÏµÍ³µÄ·ÖÎöÓë×Ü
½á,´ËÀàËã·¨Ê×ÏÈÒª¼ÆËãÃ¿¸ö×´Ì¬-¶¯×÷¶ÔµÄÖµº¯Êý(valuefunction),È»ºó¸ù¾Ý¼ÆËãµÄÖµ
º¯ÊýÌ°À·µØÑ¡ÔñÖµº¯Êý×î´óµÄ¶¯×÷¡£»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨ÄÜ¹»ÓÐÐ§µØ½â¾öÀëÉ¢µÄ
×´Ì¬¶¯×÷¿Õ¼äÎÊÌâ¡£Ãæ¶ÔÁ¬Ðø×´Ì¬¿Õ¼äÎÊÌâ,Æô·¢Ê½µÄ·½·¨ÊÇÍø¸ñÀëÉ¢»¯×´Ì¬¿Õ¼ä,±±¾©
Àí¹¤´óÑ§µÄ½¯¹ú·ÉµÈÈËÀíÂÛÐÔµØÑÐ¾¿ÁËQ-LearningÔÚÍø¸ñÀëÉ¢»¯ÖÐµÄÊÕÁ²ÐÔÎÊÌâ,Ö¸³ö
Ëæ×Å¿Õ¼äÀëÉ¢»¯ºóµÄÍø¸ñÃÜ¶ÈÔö¼Ó,Ê¹ÓÃQ-LearningËã·¨Çó½âµ½µÄ×îÓÅ½âÒÀ¸ÅÂÊ1ÊÕ
Á²¡£È»¶ø,µ±×´Ì¬¿Õ¼ä¹ý´óÊ±,Íø¸ñ»¯ÎÞ·¨±éÀúÕû¸ö×´Ì¬¿Õ¼ä,¼´ÔâÓöÁË¡°Î¬¶ÈÔÖÄÑ¡±ÎÊÌâ¡£
½¯¹ú·ÉµÈÈË½«Q-LearningÓëÉñ¾­ÍøÂçÏà½áºÏ,ÔÚÎ´ÀëÉ¢»¯Á¬Ðø×´Ì¬¿Õ¼äµÄÇé¿öÏÂ³É¹¦Íê
³ÉÁËµ¹Á¢°ÚµÄÆ½ºâ¿ØÖÆ¡£Ëæºó,LagoudakisµÈÈËÌá³öÁËÍ¨¹ýÖµº¯Êý¹À¼ÆÀ´½â¾öÁ¬Ðø×´Ì¬
ÎÊÌâ,¼«´óµØÌá¸ßÁË²ßÂÔµü´úËã·¨ÔÚ´¦ÀíÁ¬Ðø×´Ì¬¿Õ¼äÎÊÌâÖÐµÄÐÔÄÜ¡£ÄÏ¾©´óÑ§µÄ³ÂÐË
¹úÍ¨¹ýÒýÈëºËº¯ÊýÐÎÊ½Ìá¸ßÖµº¯ÊýµÄ·º»¯ÄÜÁ¦,Îª¸´ÔÓÖµº¯Êý±í´ïÌá¹©¼¼ÊõÖ§³Å¡£»ùÓÚ
Öµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨¿ÉÒÔÓÐÐ§½â¾öÁ¬Ðø×´Ì¬¿Õ¼äÎÊÌâ,µ«ÊÇÓÉÓÚÖµº¯ÊýµÄ¼«¶È·ÇÍ¹ÐÔ, 
ÄÑÒÔÔÚÃ¿Ò»¸öÊ±¼ä²½ÖèÉÏ¶¼Ê¹ÓÃ×î´ó»¯¼ÛÖµº¯ÊýÀ´½øÐÐ¶¯×÷Ñ¡Ôñ¡£ÓÉ´Ë¿É¼û,´ËÀà·½·¨
²»ÊÊÓÃÓÚ½â¾öÏÖÊµÊÀ½çÖÐ¾ßÓÐÁ¬Ðø¶¯×÷¿Õ¼äµÄ¾ö²ßÎÊÌâ¡£²¢ÇÒSutonµÈÈËÖ¸³ö,´ËÀà·½
·¨µÄ²ßÂÔÊÇÍ¨¹ýÖµº¯Êý¶ø¼ä½ÓµÃµ½µÄ,¼´Ê¹¼«Ð¡µÄÖµº¯ÊýÎó²îÒ²¿ÉÄÜµ¼ÖÂ²»Ç¡µ±µÄ¾ö²ß¡£
(2)²ßÂÔËÑË÷·½·¨¡£²ßÂÔËÑË÷Ëã·¨ÊÇË¹Ì¹¸£´óÑ§µÄAndrewNgµÈÈËÌá³öµÄÒ»ÖÖ½Ï
ÐÂµÄÇ¿»¯Ñ§Ï°Ëã·¨,¸ÃÀà·½·¨Ö±½Ó¶Ô²ßÂÔ½øÐÐÑ§Ï°,ÄÜ¹»Í»ÆÆ»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨
ÖÐËù´æÔÚµÄ¾ÖÏÞÐÔ,ÊÊÓÃÓÚ½â¾ö¾ßÓÐÁ¬Ðø¶¯×÷¿Õ¼äµÄ¸´ÔÓ¾ö²ßÈÎÎñ¡£Ä¿Ç°ÎªÖ¹,×î¾ß´ú±í
ÐÔµÄ²ßÂÔËÑË÷Ëã·¨°üÀ¨PEGASUS ¡¢²ßÂÔÌÝ¶È¡¢×ÔÈ»²ßÂÔÌÝ¶È¡¢EM¼°NACµÈ¡£ÆäÖÐ,²ß
ÂÔÌÝ¶ÈËã·¨(policygradients)ÊÇ×îÊµÓÃ¡¢×îÒ×ÓÚÊµÏÖÇÒ±»¹ã·ºÓ¦ÓÃµÄÒ»ÖÖ²ßÂÔËÑË÷·½·¨, 
´ËÀàËã·¨·Ç³£ÊÊÓÃÓÚ¾ßÓÐÁ¬Ðø×´Ì¬¼°¶¯×÷¿Õ¼äµÄÖÇÄÜÏµÍ³¡£´ËÍâ,ÓÉÓÚ²ßÂÔÌÝ¶È·½·¨ÖÐ
²ßÂÔµÄ¸üÐÂÊÇÖð½¥±ä»¯µÄ,ÄÜ¹»È·±£ÏµÍ³µÄÎÈ¶¨ÐÔ,ÓÈÆäÊÊÓÃÓÚ»úÆ÷ÈËµÈ¸´ÔÓµÄÖÇÄÜÏµÍ³
¾ö²ß¿ØÖÆÎÊÌâ¡£È»¶ø,WiliamsµÈÈËÌá³öµÄ´«Í³²ßÂÔÌÝ¶ÈËã·¨,REINFORCEÌÝ¶È¹À¼Æ
·½²î¹ý´ó,Ê¹µÃËã·¨²»ÎÈ¶¨ÇÒÊÕÁ²Âý¡£ÎªÁË½â¾öÌÝ¶È¹À¼Æ·½²î¹ý´óµÄÊµÖÊÐÔÎÊÌâ,Sehnke 
µÈÈËÌá³öÁË»ùÓÚ²ÎÊýÌ½Ë÷µÄÌÝ¶È¹À¼ÆËã·¨(parameter-exploringpolicygradients,PGPE),¸Ã
Ëã·¨Í¨¹ýÌ½Ë÷²ßÂÔ²ÎÊý·Ö²¼º¯ÊýµÄ·½Ê½´ó´ó¼õÉÙÁË¾ö²ß¹ý³ÌÖÐµÄËæ»úÈÅ¶¯,´Ó¶ø¸ù±¾ÐÔµØ
½â¾öÁË´«Í³²ßÂÔÌÝ¶ÈËã·¨ÖÐËù´æÔÚµÄÌÝ¶È¹À¼Æ·½²î¹ý´óµÄÎÊÌâ¡£
6.Ç¿»¯Ñ§Ï°ÎÊÌâ½¨Ä£¡ª¡ª¡ªÂí¶û¿É·ò¾ö²ß¹ý³Ì
2 

Ç¿»¯Ñ§Ï°ÈÎÎñÍ¨³£ÓÃÂí¶û¿É·ò¾ö²ß¹ý³Ì(MDP)À´ÃèÊö:(A,PI 
,¦Ã),

S,PT 
,r,ÆäÖÐ
S 
Îª×´Ì¬¿Õ¼ä;
A 
Îª¶¯×÷¿Õ¼ä,×´Ì¬
S 
ºÍ¶¯×÷
A 
¾ù¿ÉÒÔÎªÀëÉ¢¿Õ¼ä,Ò²¿ÉÒÔÊÇÁ¬Ðø¿Õ¼ä, 
È¡¾öÓÚ¾ßÌåÎÊÌâ;PT 
(t+1|a)ÎªÔÚµ±Ç°×´Ì¬st 
ÏÂÖ´ÐÐ¶¯×÷aºó,×ªÒÆµ½ÏÂÒ»×´Ì¬

st,tst+1µÄ×´Ì¬×ªÒÆ¸ÅÂÊPI((s) Îª³õÊ¼×´Ì¬s1 µÄ¸ÅÂÊ;sat(t) 

¡¤64¡¤ 
ÃÜ¶È;s) r(t,t,+1)ÎªÔÚµ±Ç°×´Ì¬

st 
ÏÂÖ´ÐÐ¶¯×÷aºó×ªÒÆµ½ÏÂÒ»×´Ì¬st+1 µÄË²Ê±½±ÉÍ;0<¦Ã<1 ÎªÎ´À´½±ÉÍÕÛ¿ÛÒò×Ó¡£
MDP µÄ¶¯Ì¬(t) ¹ý³ÌÈçÏÂ:Ê×ÏÈ,Ä³ÖÇÄÜÌå(t)´Ó³õÊ¼×´Ì¬¸ÅÂÊ·Ö²¼p(ÖÐËæ»úÑ¡

agens1)
Ôñ×´Ì¬s1 ºó¸ù¾Ýµ±Ç°²ßÂÔ
¦Ð 
Ñ¡Ôñ¶¯×÷a1,È»ºóÖÇÄÜÌå¸ù¾Ý×´Ì¬×ª»»º¯Êýp(s1,

s2|a1)
×´Ì¬s1 Ëæ»ú×ª»»µ½s2,»ñµÃ´Ë´Î×´Ì¬×ªÒÆµÄË²Ê±½±ÉÍr(a1,)¡£´Ë¹ý³ÌÖØ¸´T ´Î,(´Ó) 

s1,s2 

snannn

µÃµ½Ò»ÌõÂ·¾¶hn 
¡Ã1,¡­,
T 
], ´Ë´¦µÄ
T 
ÎªÊ±¼ä²½³¤¡£

Ç¿»¯Ñ§Ï°µÄºËÐÄÊÇ¶¯×÷Ñ¡Ôñ²ßÂÔ,¼´×´Ì¬µ½¶¯×÷µÄÓ³Éä¡£¼òµ¥µØËµ,²ßÂÔÊÇ´Ó¸ÐÖªµ½
µÄ×´Ì¬µ½²ÉÈ¡µÄ¶¯×÷µÄÓ³Éä,Ëü¼È¿ÉÒÔÊÇÈ·¶¨ÐÔµÄÒ²¿ÉÒÔÊÇËæ»úµÄ¡£È·¶¨ÐÔ²ßÂÔÊÇ¸ø¶¨
×´Ì¬st, at=stËæ»úÐÔ²ßÂÔÊÇ½«×´Ì¬¿Õ¼äÓ³Éäµ½¶¯×÷¿Õ¼äµÄ

=[1,sT 
,a

¿ÉÒÔµÃµ½È·¶¨µÄ¶¯×÷a:¦Ð(); 

·Ö²¼,¼´a¦Ð(), ±íÊ¾ÔÚ×´Ì¬sÏÂÖ´ÐÐ¶¯×÷aµÄÌõ¼þ¸ÅÂÊÃÜ¶È¡£ÁíÍâ,Ëæ»úÐÔ²ß
ÂÔº¬ÓÐ¶¯×÷µÄÌ½Ë÷,ËùÎ½Ì½Ë÷ÊÇÖ¸ÖÇÄÜÌå³¢ÊÔÆäËû¶¯×÷ÒÔ±ãÕÒµ½¸üºÃµÄ²ßÂÔ¡£
Ç¿»¯Ñ§Ï°µÄÄ¿±êÊÇÕÒµ½×îÓÅ²ßÂÔ,´Ó¶ø×î´ó»¯ÆÚÍûÀÛ»ý»Ø±¨¡£µ±µÃµ½Ò»ÌõÂ·¾¶ºó,±ã
¿É¼ÆËã¸ÃÂ·¾¶µÄÀÛ»ý»Ø±¨

t~at|sttt 

t-1

h)¡Ã¦Ãsas

R(
= ¦²(T) r(t,t,t+1)

=

ÆäÖÐ,
¦Ã 
ÊÇÕÛ¿ÛÒò×Ó,Í¨³£0¡Ü¦Ã<1,ÕÛ¿Û(t) Òò(1) ×Ó
¦Ã 
¾ö¶¨ÁË»Ø±¨µÄÊ±¼ä³ß¶È¡£ÁîÍùºóµÄ×´Ì¬
Ëù·´À¡»ØÀ´µÄË²Ê±½±ÉÍ³ËÉÏÕâ¸öÕÛ¿ÛÏµÊý,ÕâÑùÒâÎ¶×Åµ±ÏÂµÄ½±Àø±ÈÎ´À´·´À¡µÄ½±ÉÍ¸ü
ÖØÒª¡£×¢Òâ,Ò»ÌõÂ·¾¶²»ÊÇÈ·¶¨µÄ,ËüµÄÀÛ»ý»Ø±¨ÊÇÒ»¸öËæ»ú±äÁ¿,²»ÊÇÒ»¸öÈ·¶¨Öµ,Òò´Ë
ÎÞ·¨ºâÁ¿ÓëÃèÊöËüµÄºÃ»µ,µ«ÊÇÆäÆÚÍûÊÇÒ»¸öÈ·¶¨Öµ¡£Òò´ËÓÃÀÛ»ý»Ø±¨µÄÆÚÍûÀ´ºâÁ¿Ò»

p(R(d

¸ö²ßÂÔ,ÀÛ»ý»Ø±¨ÆÚÍû±íÊ¾Îª
J¦Ð¡Ã=¡Òh)h)
h 

T 

ÆäÖÐ,h)p(p(t+1|t,t¦Ð(t|

p(=s1)¦° ssa)ast)Îª·¢ÉúÂ·¾¶µÄ¸ÅÂÊÃÜ¶Èº¯Êý¡£Ç¿»¯Ñ§Ï°

t=1

µÄÄ¿±êÊÇÕÒµ½×îÓÅ²ßÂÔ¦Ð*,¸Ã²ßÂÔ¿ÉÒÔ×î´ó»¯ÆÚÍû½±ÉÍJ¦Ð 
: 
¦Ð*¡Ã=argmaxJ¦Ð

¦Ð 

6.Ç¿»¯Ñ§Ï°Ëã·¨¼ò½é
3 

Ä¿Ç°,½â¾öÇ¿»¯Ñ§Ï°ÎÊÌâµÄ·½·¨Ö÷Òª°üÀ¨»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨Óë²ßÂÔËÑË÷
(policysearch)Á½´óÖ÷ÒªËã·¨¡£ÏÂÃæ,Ò»Ò»Ñ§Ï°Á½ÀàËã·¨ÖÐµÄ¾­µä·½·¨¡£

6.1 
»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨
3.
±¾½Ú½éÉÜ»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨¡£»ùÓÚÖµº¯ÊýµÄ²ßÂÔÑ§Ï°·½·¨ÊÇÇ¿»¯Ñ§Ï°Ëã·¨
µÄÒ»¸öÖ÷ÒªÀà±ð,ËüÑ§Ï°Öµº¯Êý,×îÖÕµÄ²ßÂÔ¸ù¾ÝÖµº¯ÊýÌ°À·µÃµ½,¼´ÔÚÈÎÒâ×´Ì¬ÏÂ,µ±Ç°
µÄ×îÓÅ²ßÂÔÎªÖµº¯Êý×î´óÊ±Ëù¶ÔÓ¦µÄ¶¯×÷¡£±¾½Ú½«Ê×ÏÈ½éÉÜ×´Ì¬Öµº¯ÊýV¦Ð 
(ºÍ×´Ì¬
¶¯×÷Öµº¯ÊýQ¦Ð 
(a)µÄ¶¨Òå,Ëæºó½éÉÜÒ»ÖÖ´«Í³µÄÑ§Ï°Öµº¯ÊýµÄ·½·¨:QLasn)
nÈ»ºó

s,-erig, 
½éÉÜ²ßÂÔµü´úËã·¨µÄ¿ò¼Ü,×îºó½²Êö»ùÓÚÖµº¯Êý¹À¼ÆµÄ×îÐ¡¶þ³Ë²ßÂÔµü´úËã·¨(LSPI )¡£

1. 
Öµº¯Êý
Öµº¯Êý¿ÉÒÔ·ÖÎªÁ½Àà:×´Ì¬Öµº¯ÊýV¦Ð 
(s)¡¢-¶¯×÷Öµº¯ÊýQ¦Ð 
(a)¡£×´Ì¬Öµº¯Êý

×´Ì¬s,
¡¤65¡¤ 


V¦Ð(s)¿ÉÒÔÓÃÀ´ºâÁ¿²ÉÓÃ²ßÂÔ¦Ð Ê±,×´Ì¬s µÄ¼ÛÖµ¡£¼´×´Ì¬Öµº¯ÊýV¦Ð (s)ÊÇ´Ó×´Ì¬s ³ö
·¢,°´ÕÕ²ßÂÔ¦Ð ²ÉÈ¡ÐÐÎªµÃµ½µÄÆÚÍûÀÛ»ý»Ø±¨,ÓÃ¹«Ê½±íÊ¾Îª
V¦Ð(s)¡Ã=E¦Ð,PT ¦²¡Þ 
t=1
¦Ãt-1r(st,at,st+1)|s1 [ =s] 
ÆäÖÐ,E¦Ð,PT ±íÊ¾ÔÚ³õÊ¼×´Ì¬Îªs1=s,²ßÂÔÎª¦Ð(at|st)ºÍ×´Ì¬×ªÒÆ¸ÅÂÊÃÜ¶Èº¯ÊýÎª
PT (st+1|st,at)ÏÂµÄÆÚÍûÖµ¡£
ÁíÒ»ÀàÊÇ×´Ì¬-¶¯×÷Öµº¯ÊýQ¦Ð(s,a),¸ÃÖµº¯Êý¿ÉÒÔÓÃÀ´ºâÁ¿ÔÚ²ßÂÔ¦Ð ÏÂ,ÖÇÄÜÌåÔÚ
¸ø¶¨×´Ì¬ÏÂ²ÉÈ¡¶¯×÷a ºóµÄ¼ÛÖµ¡£¼´×´Ì¬-¶¯×÷Öµº¯ÊýÊÇ´Ó×´Ì¬s ³ö·¢,²ÉÈ¡ÐÐÎªa ºó, 
¸ù¾Ý²ßÂÔ¦Ð Ö´ÐÐ¶¯×÷ËùµÃµ½µÄÆÚÍûÀÛ»ý»Ø±¨: 
Q¦Ð(s,a)¡Ã=E¦Ð,PT 
¨¦
.
¨º¨º 
¦²¡Þ 
t=1
¦Ãt-1r(st,at,st+1)|s1 =s,a1 =a
¨´
.
¨²¨² 
ÆäÖÐ,E¦Ð,PT ÊÇÔÚ³õÊ¼×´Ì¬Îªs1 =s,²ÉÈ¡¶¯×÷a1 ºó,°´ÕÕ²ßÂÔ¦Ð (at|st )ºÍ×ªÒÆÄ£ÐÍ
PT (st+1|st,at)ÏÂËùµÃµ½µÄÌõ¼þÆÚÍûÀÛ»ý»Ø±¨¡£¿ÉÒÔ¿´µ½×´Ì¬-¶¯×÷Öµº¯ÊýÓë×´Ì¬Öµº¯
ÊýÎ¨Ò»µÄ²»Í¬ÊÇ¶¯×÷Öµº¯Êý²»½öÖ¸¶¨ÁËÒ»¸ö³õÊ¼×´Ì¬,¶øÇÒÒ²Ö¸¶¨ÁË³õÊ¼¶¯×÷,¶ø×´Ì¬Öµ
º¯ÊýµÄ³õÊ¼¶¯×÷ÊÇ¸ù¾Ý²ßÂÔ²úÉúµÄ¡£¼ÛÖµº¯ÊýÓÃÀ´ºâÁ¿Ä³Ò»×´Ì¬»òÕß×´Ì¬-¶¯×÷¶ÔµÄÓÅ
ÁÓ,¶ÔÓÚÖÇÄÜÌåÀ´Ëµ,¾ÍÊÇÊÇ·ñÖµµÃÑ¡ÔñÕâÒ»×´Ì¬»òÕß×´Ì¬-¶¯×÷¶Ô¡£Òò´Ë,×îÓÅ²ßÂÔ×Ô
È»¶ÔÓ¦×Å×îÓÅÖµº¯Êý¡£
ÔÚÊµ¼ÊÊµÏÖËã·¨Ê±,²»»á°´ÕÕÉÏÊö¶¨Òå½øÐÐ¼ÆËã,¶øÊÇÍ¨¹ý±´¶ûÂü·½³Ì(Bellman 
equation)½øÐÐµü´ú¡£ÏÂÃæ,½«½éÉÜ×´Ì¬Öµº¯ÊýºÍ×´Ì¬-¶¯×÷Öµº¯ÊýµÄ±´¶ûÂü·½³ÌÇó½â·½
·¨¡£¶ÔÓÚÈÎÒâ²ßÂÔ¦Ð ºÍÈÎÒâ×´Ì¬s,¿ÉÒÔµÃµ½ÈçÏÂµÝ¹é¹ØÏµ: 
V¦Ð(s)=E¦Ð,PT [r(s,a,s')+¦ÃV¦Ð(s')] 
ÆäÖÐ,s'Îªs µÄÏÂÒ»×´Ì¬¡£Õâ¾ÍÊÇ±´¶ûÂü·½³ÌµÄ»ù±¾ÐÎÌ¬,Ëü±íÃ÷ÔÚ²ßÂÔ¦Ð ÏÂ,µ±Ç°×´Ì¬
µÄÖµº¯Êý¿ÉÒÔÍ¨¹ýÏÂÒ»¸ö×´Ì¬µÄÖµº¯ÊýÀ´µü´úÇó½â¡£Í¬ÑùµØ,×´Ì¬-¶¯×÷Öµº¯ÊýµÄ±´¶û
Âü·½³Ì¿ÉÐ´³ÉÏàËÆµÄÐÎÊ½: 
Q¦Ð(s,a)=E¦Ð,PT [r(s,a,s')+¦ÃQ¦Ð(s',a')] 
ÆäÖÐ,(s',a')ÎªÏÂÒ»¸ö×´Ì¬-¶¯×÷¶Ô¡£
¼ÆËãÖµº¯ÊýµÄÄ¿µÄÊÇÎªÁËÕÒµ½¸üºÃµÄ²ßÂÔ,×îÓÅ×´Ì¬Öµº¯Êý±íÊ¾ËùÓÐ²ßÂÔÖÐÖµ×î´ó
µÄÖµº¯Êý,¼´
V¦Ð* (s)=max ¦Ð 
V¦Ð(s) 
Í¬ÑùµØ,×îÓÅ×´Ì¬-¶¯×÷Öµº¯Êý¿É¶¨ÒåÎªÔÚËùÓÐ²ßÂÔÖÐ×î´óµÄ×´Ì¬-¶¯×÷Öµº¯Êý,¼´Q¦Ð* (s,a)= 
max ¦Ð' 
Q¦Ð(s,a)¡£
×´Ì¬Öµº¯Êý¸üÐÂ¹ý³ÌÎª,¶ÔÃ¿Ò»¸öµ±Ç°×´Ì¬s,Ö´ÐÐÆä¿ÉÄÜµÄ¶¯×÷a,¼ÇÂ¼²ÉÈ¡¶¯×÷Ëù
µ½´ïµÄÏÂÒ»×´Ì¬,²¢¼ÆËãÆÚÍû¼ÛÖµV(s),½«ÆäÖÐ×î´óµÄÆÚÍû¼ÛÖµº¯ÊýËù¶ÔÓ¦µÄ¶¯×÷×÷Îª
µ±Ç°×ªÌ¬ÏÂµÄ×îÓÅ¶¯×÷¡£×îÓÅ×´Ì¬Öµº¯ÊýV¦Ð* (s)¿Ì»­ÁËÔÚËùÓÐ²ßÂÔÖÐÖµ×î´óµÄÖµº¯Êý, 
¼´ÔÚ×´Ì¬s ÏÂ,ÔÚÃ¿Ò»²½¶¼Ñ¡Ôñ×îÓÅ¶¯×÷Ëù¶ÔÓ¦µÄÖµº¯Êý¡£
×´Ì¬Öµº¯Êý¿¼ÂÇµÄÊÇÃ¿¸ö×´Ì¬½öÓÐÒ»¸ö¶¯×÷¿ÉÑ¡(ÖÇÄÜÌåÈÏÎª¸Ã¶¯×÷Îª×îÓÅ¶¯×÷), 
¶ø×´Ì¬-¶¯×÷Öµº¯ÊýÊÇ¿¼ÂÇÃ¿¸ö×´Ì¬ÏÂ¶¼ÓÐ¶à¸ö¶¯×÷¿ÉÒÔÑ¡Ôñ,Ñ¡ÔñµÄ¶¯×÷²»Í¬×ª»»µÄ
¡¤66¡¤

ÏÂÒ»×´Ì¬Ò²²»Í¬,ÔÚµ±Ç°×´Ì¬ÏÂÈ¡×îÓÅ¶¯×÷Ê±»áÊ¹×´Ì¬Öµº¯ÊýÓë×´Ì¬-¶¯×÷Öµº¯ÊýÏàµÈ¡£
×îÓÅ×´Ì¬Öµº¯ÊýV¦Ð* (s)µÄ±´¶ûÂü·½³Ì±íÃ÷:×îÓÅ²ßÂÔÏÂ×´Ì¬s µÄ¼ÛÖµ±ØÐëÓëµ±Ç°×´Ì¬
ÏÂ×îÓÅ¶¯×÷µÄ×´Ì¬-¶¯×÷ÖµÏàµÈ,¼´
V* (s)=max a 
Q* (s,a) 
=max a 
E¦Ð,PT ¦²¡Þ 
t=1
[ ¦Ãt-1r(st,at,st+1)|s1 =s,a1 =a] 
=max a 
E¦Ð,PT [r(s,a,s')+¦ÃV* (s')|s1 =s,a1 =a] 
×´Ì¬-¶¯×÷Öµº¯ÊýQ* (s,a)µÄ×îÓÅ·½³ÌÎª
Q* (s,a)=E¦Ð,PT [r(s,a,s')+¦Ã max a' 
Q* (s',a')] 
´Ó×îÓÅÖµº¯ÊýµÄ½Ç¶ÈÑ°ÕÒ×îÓÅ²ßÂÔ,¿ÉÒÔÍ¨¹ý×î´ó»¯×îÓÅ×´Ì¬-¶¯×÷Öµº¯ÊýQ* (s,a) 
À´»ñµÃ
¦Ð* (a|s)= 1, a =argmaxa¡ÊAQ* (s,a) 
0, ÆäËû{ 
2.Q-Learning 
±¾½Ú´ÓÖµµü´úµÄ½Ç¶È,½²ÊöÒ»ÖÖÑ§Ï°Öµº¯ÊýÒÔ¼°Çó½â×îÓÅ²ßÂÔµÄ×î´«Í³µÄ·½·¨¡ª¡ª¡ª 
Q-Learning¡£ËùÎ½Öµµü´ú·½·¨ÊÇÖ¸Ê×ÏÈÑ§Ï°Öµº¯Êýµ½ÊÕÁ²,È»ºóÀûÓÃ×îÓÅÖµº¯ÊýÈ·¶¨×î
ÓÅµÄÌ°À·²ßÂÔ¡£
¸ù¾Ý×´Ì¬-¶¯×÷Öµº¯ÊýµÄ±´¶ûÂü·½³Ì¿ÉÒÔ·¢ÏÖµ±Ç°Öµº¯ÊýµÄ¼ÆËãÓÃµ½ÁËºóÐø×´Ì¬µÄ
Öµº¯Êý,¼´ÓÃºóÐø×´Ì¬µÄÖµº¯Êý¹À¼Æµ±Ç°Öµº¯Êý,Õâ¾ÍÊÇbootstrapping·½·¨¡£È»¶ø,µ±Ã»
ÓÐ»·¾³µÄ×´Ì¬×ªÒÆº¯ÊýÄ£ÐÍÊ±,ºóÐø×´Ì¬ÎÞ·¨È«²¿µÃµ½,Ö»ÄÜÍ¨¹ýÊµÑéºÍ²ÉÑùµÄ·½·¨Ã¿´Î
ÊÔÑéÒ»¸öºóÐø×´Ì¬s'¡£¶ø¼ÆËãÒ»¸öÖµº¯Êý,ÐèÒªµÈµ½Ã¿´ÎÊÔÑé½áÊø,ËùÒÔÑ§Ï°ËÙ¶ÈÂý,Ð§
ÂÊµÍÏÂ¡£Òò´Ë,¿¼ÂÇÔÚÊÔÑéÎ´½áÊøÊ±¾Í¹À¼Æµ±Ç°Öµº¯Êý¡£Ê±¼ä²î·Ö·¨(temporal 
difference,TD)ÊÇ¸ù¾Ý±´¶ûÂü·½³ÌÇó½âÖµº¯Êý×îºËÐÄµÄ·½·¨¡£ÕâÀï½éÉÜ¸üÐÂÖµº¯ÊýµÄ×î
´«Í³µÄ·½·¨:Q-Learning¡£¸ù¾Ý×´Ì¬-¶¯×÷Öµº¯ÊýµÄ±´¶ûÂü·½³Ì,Q-LearningÀûÓÃTDÆ«
²î¸üÐÂµ±Ç°µÄÖµº¯Êý: 
Q(st,at)=Q(st,at)+¦Á[r(st,at,st+l)+rmax¦ÁQ(st+l,a)-Q(st,at)] 
ÆäÖÐ,¦Ät=r(st,at,st+l)+rmax¦ÁQ(st+l,a)-Q(st,at)±íÊ¾TDÆ«²î¡£½«Q-LearningËã
·¨×Ü½áÈçÍ¼6-2ËùÊ¾¡£ÖµµÃ×¢ÒâµÄÊÇ,ÕâÀïQ-Learning²ÉÓÃµÄÊÇÒì²ßÂÔ·½·¨,¼´ÐÐ¶¯²ßÂÔÓë
Ä¿±ê²ßÂÔËù²ÉÓÃµÄ²ßÂÔ²»Ò»ÖÂ,ÆäÖÐÐÐ¶¯²ßÂÔ²ÉÓÃ¦ÅÌ°À·²ßÂÔ,¶øÄ¿±ê²ßÂÔÎªÌ°À·²ßÂÔ¡£
3.²ßÂÔµü´ú
ÑÏ¸ñÀ´Ëµ,²ßÂÔµü´úÊÇÓÃÀ´½â¾ö¶¯Ì¬¹æ»®ÎÊÌâµÄ·½·¨¡£¶øÇ¿»¯Ñ§Ï°ÓÖ³ÆÎªÄâ¶¯Ì¬¹æ
»®¡£¶¯Ì¬¹æ»®ÎªÇó½â¸´ÔÓÎÊÌâÌá¹©ÁËË¼Â·,Ëü½«Ô­±¾¸´ÔÓ¡¢¹æÄ£½Ï´óµÄÎÊÌâ»®·Ö³ÉÈô¸É¸ö
Ð¡ÎÊÌâ¡£¶¯Ì¬¹æ»®ÓëÇ¿»¯Ñ§Ï°µÄÇø±ð¾ÍÊÇ¶¯Ì¬¹æ»®¼ÙÉèMDPÄ£ÐÍÊÇÈ«ÖªµÄ,¶øÇ¿»¯Ñ§
Ï°ÖÐMDP¿ÉÄÜÊÇÎ´ÖªµÄ¡£
²ßÂÔµü´úÊÇÔËÓÃÖµº¯ÊýÀ´»ñÈ¡×îÓÅ²ßÂÔµÄ·½·¨,Ò²¾ÍÊÇÔÚ²ßÂÔÎ´ÖªµÄÇé¿öÏÂ,¸ù¾ÝÃ¿
´ÎµÄ½±ÀøÑ§µ½×îÓÅ²ßÂÔµÄ·½·¨¡£²ßÂÔµü´úËã·¨·ÖÁ½¸ö²½Öè:²ßÂÔÆÀ¹ÀºÍ²ßÂÔ¸Ä½ø¡£¶ÔÒ»
¸ö¾ßÌåµÄMDPÎÊÌâ,Ã¿´ÎÏÈ³õÊ¼»¯Ò»¸ö²ßÂÔ¦Ð1,Õë¶ÔÃ¿´Îµü´úËùÖ´ÐÐµÄ¹ý³Ì,¼ÆËãµ±Ç°
¡¤67¡¤

Í¼6-2 Q-LearningËã·¨Î±´úÂë

²ßÂÔ¦Ðl 
ÏÂµÄ±´¶ûÂü·½³Ì,´Ó¶øµÃµ½×´Ì¬-¶¯×÷Öµº¯ÊýQ¦Ð(a), ¸Ã¹ý³Ì³ÆÎª²ßÂÔÆÀ¹À¡£

s,

t 

¸ù¾Ý¸ÃÖµº¯ÊýÊ¹ÓÃÌ°ÐÄ²ßÂÔÀ´¸üÐÂ²ßÂÔ¦Ðl+1: 
¦Ðl+1(a|s)=argmaxQ¦Ðl 
(a), 

s,

a 

ÉÏÊö¹ý³Ì³ÆÎªÌ°ÐÄ²ßÂÔ¸Ä½ø¡£½«ÉÏÊö¹ý³Ì²»¶Ïµü´úÖ±ÖÁÊÕÁ²,×îÖÕ¿ÉµÃµ½×îÓÅ²ßÂÔ: 
a|s)¦Ðl(
ÆäÖÐ,
¡¬¦Ðl+1(-a|s)¡¬¡Ük,.
s 
¡ÊS,.
a 
¡Ê
A 

k>0 ÇÒÒ»°ãÈ¡Ò»¸ö·Ç³£Ð¡µÄÕýÊý;¡¬¡¤¡¬ÎªL2 ·¶Êý¡£


Í¼6-3 ²ßÂÔµü´úËã·¨¿ò¼Ü

Í¼6-3ËùÊ¾ÎªÇ¿»¯Ñ§Ï°ÖÐµÄActor-CriticËã·¨¡£²ßÂÔ¸Ä½øÎªActor²¿·Ö,¾ö¶¨ÖÇÄÜÌå
µÄÐÐÎª,¶ø²ßÂÔÆÀ¹À×÷ÎªCritic,ÓÃÀ´ÆÀÅÐÖÇÄÜÌåÐÐÎªµÄÓÅÁÓ¡£Ì°ÐÄ²ßÂÔ¸Ä½øÄÜÈ·±£²ßÂÔ
s,s,

µÄÐÔÄÜÊÇÌá¸ßµÄ,Õâ¾ÍÊÇ²ßÂÔ¸Ä½ø¶¨Àí:Q¦Ðl 
(a)¡ÜQ¦Ðl+1()¡£
s,¸Ã¶¨Àí±íÃ÷,²ßÂÔ¦Ðl+1 µÄÐÔÄÜÒ»¶¨±È²ßÂÔ¦Ðl 
ÐÔÄÜ¸üºÃ»òµÈ(a) Í¬¡£µ±ÇÒ½öµ±Q¦Ðl+1(a) 
l+1(a|

Îª×îÓÅ×´Ì¬-¶¯×÷Öµº¯Êý,ÇÒ¦Ða|s)Óë¦Ðl 
(s)¾ùÎª×îÓÅ²ßÂÔÊ±µÈºÅ³ÉÁ¢¡£¹ÊÔÚÖ´ÐÐ
²ßÂÔ¸Ä½øÊ±³ý·Çµ±Ç°²ßÂÔÒÑ¾­ÊÇ×îÓÅ²ßÂÔ,·ñÔòÒªÇó½«Òª¸üÐÂµÄ²ßÂÔ±ØÐë±ÈÔ­²ßÂÔ¸üºÃ¡£
ÔÚ²ßÂÔµü´úÖÐ,¿ÉÒÔÍ¨¹ýÇó½âQ¦Ðl 
s,µÄÓÅ»¯ÎÊÌâÀ´½øÐÐ²ßÂÔ¸Ä½ø,¶ø¹Ø¼ü²¿·ÖÊÇ²ßÂÔ
ÆÀ¹À,¼´Öµº¯ÊýµÄ¹À¼Æ¡£
(a) 

Ç°ÃæÒÑ´ÓÖµµü´úµÄ½Ç¶È½éÉÜÁËÒ»ÖÖÇó½âÀëÉ¢×´Ì¬-¶¯×÷ÎÊÌâµÄÖµº¯Êý·½·¨,È»¶øÊ¹
ÓÃÉÏÊöµÄ±í¸ñÐÍ·½·¨À´¼ÆËãÃ¿¸ö×´Ì¬-¶¯×÷¶ÔµÄÖµº¯ÊýµÄ·½·¨´ú¼ÛÊÇºÜ´óµÄ,ÌØ±ðÊÇµ±
×´Ì¬-¶¯×÷¿Õ¼äÊÇÁ¬ÐøµÄÇÒºÜ´óÊ±,»á²úÉúÎ¬ÊýÔÖÄÑ,ÄÑÒÔÇó½â¡£Îª½â¾ö´ËÎÊÌâ,Ìá³öÁË
Öµº¯Êý±Æ½ü·½·¨¡£½ÓÏÂÀ´½«½éÉÜ»ùÓÚ×îÐ¡¶þ³Ë·¨µÄ²ßÂÔµü´ú·½·¨¡£

¡¤68¡¤ 


4.»ùÓÚ×îÐ¡¶þ³Ë·¨µÄ²ßÂÔµü´úËã·¨
ÉÏÊö»ùÓÚ¶¯Ì¬¹æ»®µÄÇ¿»¯Ñ§Ï°·½·¨ÒªÇó×´Ì¬¿Õ¼äºÍ¶¯×÷¿Õ¼ä²»ÄÜÌ«´óÇÒ¸Ã¿Õ¼äÎªÀë
É¢µÄ¡£¶øµ±×´Ì¬¿Õ¼äÎªÁ¬ÐøµÄ,»òÎ¬¶È½Ï´óÊ±,ÎÞ·¨Ö±½ÓÀûÓÃÉÏÊö·½·¨½â¾öÎÊÌâ,ÕâÊ±¾Í
ÐèÒª¿¼ÂÇÖµº¯Êý±Æ½ü(valuefunctionapproximation)·½·¨¡£Öµº¯Êý±Æ½ü·½·¨¸üÐÂµÄÊÇÖµ
º¯ÊýÖÐµÄ²ÎÊý,Òò¶ø,ÈÎÒâ×´Ì¬»ò×´Ì¬-¶¯×÷¶ÔµÄÖµ¶¼»á±»¸üÐÂ;¶ÔÓÚÖ®Ç°½éÉÜµÄ·½·¨¶ø
ÑÔ,Öµº¯Êý¸üÐÂºó¸Ä±äµÄÖ»ÓÐµ±Ç°×´Ì¬»ò×´Ì¬-¶¯×÷¶ÔµÄÖµº¯Êý¡£
×îÐ¡¶þ³Ë²ßÂÔµü´ú(Leastsquarespolicyiteration,LSPI)ÊÇÒ»ÖÖ²ÎÊý»¯²ßÂÔµü´úËã
·¨,ÆäÀûÓÃÏßÐÔÄ£ÐÍ¹À¼ÆÑ§Ï°×´Ì¬-¶¯×÷Öµº¯ÊýÀ´Ìá¸ß²ßÂÔÐÔÄÜ,ÁîQ¦Ð (s,a|¦Ø )ÊÇQ¦Ð (s,a) 
µÄ²ÎÊý»¯±Æ½ü,¿É±íÊ¾Îª
Q¦Ð(s,a|¦Ø )=¦Ø T.(s,a) 
ÆäÖÐ,.(s,a)Îªk Î¬»ùº¯Êý.(s,a)=[.1(s,a),.2(s,a),¡­,.k (s,a)]T,¦Ø ÊÇ´ý¹À¼ÆµÄ
²ÎÊý¡£µ±Öµº¯ÊýµÄÄ£ÐÍÈ·¶¨Ê±,ÊÊµ±µ÷Õû²ÎÊý¦Ø ,Ê¹µÃÖµº¯ÊýµÄ¹À¼ÆÖµÓëÕæÊµÖµ±Æ½ü¡£²Î
ÊýµÄ¸üÐÂÊÇ²»¶Ïµü´ú,Ö±µ½ÊÕÁ²¶øÍê³ÉµÄ¡£
ÔÚ¼à¶½Ñ§Ï°ÖÐ,º¯Êý±Æ½üÍ¨³£ÊÇÊ¹ÓÃÑù±¾µÄÄ¿±êÖµ×÷ÎªÑµÁ·¼¯À´¹À¼Æº¯Êý,µ«ÊÇÇ¿»¯
Ñ§Ï°ÖÐÄ¿±êº¯ÊýÖµ²»ÊÇÖ±½Ó¿ÉµÃµÄ,±ØÐëÓÉÒÑÊÕ¼¯µ½µÄÂ·¾¶Ñù±¾¼ÆËãºó²ÅÄÜµÃµ½¡£´Ë´¦
Ñù±¾ÊÇÔÚ²ßÂÔ¦Ð ÏÂ×ªÒÆÄ£ÐÍÎªPt Ê±µÃµ½µÄ,¿É±íÊ¾Îª(s,a,r,s')¡£¼ÙÉèÔÚµÚl ´Îµü´ú
ÖÐ,ÊÕ¼¯N ¸öÑù±¾µÄÑù±¾¼¯±íÊ¾ÎªD ={(si,ai,ri,s'i)}N 
i=1¡£
ÏÖÔÚ,ÁîQ¦Ðl ÎªµÚl ´Îµü´úÊ±,ÔÚ²ßÂÔ¦Ðl ÏÂµÃµ½µÄN ¸öÑù±¾µÄÖµº¯Êý,½«ÆäÏòÁ¿»¯±í
Ê¾ÎªQ¦Ðl =[(Q¦Ðl (s1,a1),Q¦Ðl (s2,a2),¡­,Q¦Ðl (sN ,aN )]T¡£ÁîQ¦Ðl ÊÇµÚl ´Îµü´úÊ±,µ±Ç°
²ÎÊýÎª¦Øl,»ùº¯ÊýÎª¦µ µÄÑù±¾µÄÖµº¯ÊýµÄ¹À¼ÆÖµ:Q¦Ðl=[Q¦Ðl (s1,a1),Q¦Ðl (s2,a2),¡­, 
Q¦Ðl (sN ,aN )]T¡£Q¦Ðl¿É±íÊ¾ÎªQ¦Ðl=¦µ¦Øl,ÆäÖÐ¦ØlÊÇ³¤¶ÈÎªk µÄÁÐÏòÁ¿,»ùº¯Êý¦µ ÊÇN ¡Ák 
µÄ¾ØÕó: 
¦µ = 
.(s1,a1)T 
.(s2,a2)T 
. 
.(sN ,aN )T 
.
¨¨
..... 
.
.
¡Â¡Â¡Â¡Â¡Â 
¦µ ¾ØÕóÖÐÃ¿ÐÐ´ú±íÄ³Ò»Ñù±¾(s,a)»ùº¯ÊýµÄÖµ,Ã¿ÁÐ±íÊ¾µÄÊÇËùÓÐÑù±¾¶ÔÄ³Ò»»ùº¯Êý
µÄÖµ¡£×´
Ì¬-¶¯×÷Öµº¯ÊýµÄBellman·½³Ì:Q¦Ð(s,a)=R (s,a)+¦ÃE¦Ð,PT [Q¦Ð (s',a')],ÆäÖÐ
R(s,a)=Ep(s'|s,a)[r(s,a,s')]¡£½«Bellman·½³Ì×ª»¯Îª»ùÓÚN ¸öÑù±¾µÄ¾ØÕóÐÎÊ½,·½³Ì
±äÎª
Q¦Ðl =R +¦ÃE¦Ðl ,PT [Q'¦Ðl ] 
ÆäÖÐ,Q¦Ðl ºÍR ÊÇN Î¬ÏòÁ¿¡£ÏÖÔÚ,Q¦Ðl ´úÌæQ¦Ðl,Ê¹µÃ¹À¼ÆÖµº¯Êý±Æ½ü±´¶ûÂü·½³Ì,¿ÉµÃ
¦µ¦Øl=R +¦ÃE¦Ð,PT [¦µ'¦Øl] 
º¯Êý¹À¼ÆµÄÄ¿±êÊÇ×îÐ¡»¯±´¶ûÂü²Ð²îµÄL2·¶Êý,¼´
wl* =argminwl* ¡¬¦µwl -¦ÃE¦Ð,PT (¦µ',wl)-R¡¬2 
ÓÉÓÚ»ùº¯ÊýµÄÁÐÊÇÏßÐÔÎÞ¹ØµÄ,Í¨¹ý¶ÔÉÏÊ½Çó½â,¿ÉµÃÎ¨Ò»µÄ×îÓÅ½âÎª
¦Øl={(¦µ -¦ÃE¦Ðl ,PT [¦µ'])T (¦µ -¦ÃE¦Ðl ,PT [¦µ'])-1 (¦µ -¦ÃE¦Ðl ,PT (¦µ')}TR 
¡¤69¡¤

Õâ¾ÍÊÇÄ¿±êº¯ÊýµÄ±´¶ûÂü²Ð²î×îÐ¡»¯±Æ½ü¡£µÃµ½Öµº¯ÊýµÄ¹À¼Æºó,±ã¿É¸ù¾Ý¹À¼ÆµÄ
Öµº¯Êý½øÐÐ²ßÂÔµÄ¸üÐÂ,Õâ¾ÍÊÇËùÎ½µÄ»ùÓÚ×îÐ¡¶þ³ËËã·¨µÄ²ßÂÔµü´ú·½·¨,¾ßÌåÁ÷³ÌÈç
Í¼6-4ËùÊ¾¡£ÔÚÈÎºÎ¸ø¶¨×´Ì¬
s 
ÏÂ,Í¨¹ýÊ¹Öµº¯ÊýµÄ¹À¼ÆÖµÔÚ¶¯×÷¿Õ¼ä
A 
ÉÏ×î´ó»¯,¿É
ÒÔµÃµ½¸Ã¹À¼ÆÖµº¯ÊýÉÏµÄÌ°À·²ßÂÔ¦Ð¡£

s)s,wT s,

¦Ðl+1(=argminaQ¦Ðl 
(a)=argmaxal.(a) 


Í¼6-4 ×îÐ¡¶þ³Ë²ßÂÔµü´úËã·¨¿ò¼Ü

½ØÖÁÄ¿Ç°,ËùÊ¹ÓÃµ½µÄ²ßÂÔ¸üÐÂ·½·¨¶¼ÊÇÈ·¶¨ÐÔµÄÌ°ÐÄ²ßÂÔ,µ«ÊÇÔÚÊµ¼ÊÇé¿öÖÐ,ÓÉ
ÓÚÔÚ´óµÄ×´Ì¬¶¯×÷¿Õ¼äÖÐÐèÒªÌ½Ë÷ÐÂµÄ×´Ì¬¶¯×÷¶ÔÒÔ»ñµÃ¸üºÃµÄ²ßÂÔ,¹ÊËæ»ú²ßÂÔÏà¶Ô
ÓÚÈ·¶¨ÐÔ²ßÂÔ¸üÓÐÓÅÊÆ,Òò´ËÔÚËæ»ú¸ÅÂÊ¸Ä½øÖÐ¿¼ÂÇÁËËùµÃµ½µÄ²ßÂÔµÄËæ»úÐÔ¡£ÔÚÕâÀï, 
ÒýÈëÒ»¸ö¸Ä½øµÄËæ»ú²ßÂÔ¼¼Êõ: 

¦Ðl+1(Q¦Ðl 
(a)/

a|s)s,
¦Ó
p(s,¦Ó)
a
¦Ó 
ÊÇÒ»¸öÈ·¶¨ÐÂ²ßÂÔ¦Ðl+1(s)¡Òe(=) xQ¦Ðl 
(a)/
d


ÆäÖÐ,a|Ëæ»úÐÔµÄÕý²ÎÊý¡£¸Ã²ßÂÔ³ÆÎª¼ª²¼Ë¹²ßÂÔ¸üÐÂ¼¼Êõ
(Gibbspolicyupdate)¡£

ÓÉÓÚ²ßÂÔÊÇÍ¨¹ý²ßÂÔµü´úÖÐµÄÖµº¯Êý¼ä½ÓÑ§Ï°µÃµ½µÄ,È»¶ø,Ìá¸ßÖµº¯Êý±Æ½üµÄÖÊÁ¿
²»Ò»¶¨ÄÜ²úÉú¸üºÃµÄ²ßÂÔ¡£Öµº¯ÊýµÄÎ¢Ð¡±ä»¯¿ÉÄÜ»áµ¼ÖÂ²ßÂÔµÄ¼«´ó±ä»¯,Òò´ËÊ¹ÓÃ»ù
ÓÚÖµº¯ÊýµÄ·½·¨À´¿ØÖÆ°º¹óµÄ¶¯Ì¬ÏµÍ³(ÀýÈçÀàÈË»úÆ÷ÈË)ÊÇ²»°²È«µÄ¡£´ËÍâ,»ùÓÚÖµº¯
ÊýµÄ²ßÂÔÑ§Ï°·½·¨ÄÑÒÔ´¦ÀíÁ¬Ðø¶¯×÷¿Õ¼äÎÊÌâ,ÒòÎªÐèÒªÕÒµ½Öµº¯ÊýµÄ×î´óÖµÀ´½øÐÐ¶¯
×÷µÄÑ¡Ôñ¡£½â¾öÉÏÊöÎÊÌâµÄÒ»ÖÖ·½°¸ÊÇ²ßÂÔËÑË÷Ëã·¨,½«ÔÚ6.2½ÚÖÐ½øÐÐ½²Êö¡£

3.
6.2 
²ßÂÔËÑË÷Ëã·¨
3.
²ßÂÔËÑË÷ÊÇ½«²ßÂÔ²ÎÊý»¯,ÀûÓÃ²ÎÊý»¯µÄÏßÐÔº¯Êý»òÕß·ÇÏßÐÔº¯Êý±íÊ¾²ßÂÔ,Ñ°ÕÒ×î
ÓÅµÄ²ßÂÔ²ÎÊý,Ê¹µÃÇ¿»¯Ñ§Ï°µÄÄ¿±ê,¼´ÀÛ»ý»Ø±¨µÄÆÚÍû×î´ó¡£ÔÚÖµº¯ÊýµÄ·½·¨ÖÐ,µü´ú
¼ÆËãµÄÊÇÖµº¯Êý,ÔÙ¸ù¾ÝÖµº¯Êý¸ÄÉÆ¸Ã²ßÂÔ;¶øÔÚ±¾½ÚÒª½²½âµÄ²ßÂÔËÑË÷·½·¨ÖÐ,Ö±½Ó¶Ô
²ßÂÔ½øÐÐµü´ú¼ÆËã,Ò²¾ÍÊÇµü´ú¸üÐÂ²ßÂÔµÄ²ÎÊýÖµ,µ±ÀÛ»ý»Ø±¨µÄÆÚÍû´ïµ½×î´óÊ±,²ßÂÔ
Ä£ÐÍ²ÎÊýËù¶ÔÓ¦µÄ²ßÂÔ¾ÍÊÇÏëÒªµÄ×îÓÅ²ßÂÔ¡£

ÔÚÕýÊ½Ñ§Ï°²ßÂÔËÑË÷·½·¨Ç°,ÏÈÈÏÊ¶Ò»ÏÂÖµº¯Êý·½·¨ºÍÖ±½Ó²ßÂÔËÑË÷·½·¨µÄÓÅÈ±µã: 

¡¤70¡¤ 


(1)²ßÂÔËÑË÷Ëã·¨ÊÇ¶Ô²ßÂÔ½øÐÐ²ÎÊý»¯±íÊ¾,ÓëÖµº¯Êý·½·¨ÖÐ¶ÔÖµº¯Êý½øÐÐ²ÎÊý»¯
±íÊ¾Ïà±È,²ßÂÔ²ÎÊý»¯¸ü¼òµ¥,¸üÈÝÒ×ÊÕÁ²¡£
²ßÂÔ¸ÄÉÆÐèÒªÇó½âagmaxas,µ±¶¯×÷
(2)ÀûÓÃÖµº¯Êý·½·¨Çó½â×îÓÅ²ßÂÔÊ±,rQ(a), 
¿Õ¼ä¼«´ó»òÎªÁ¬Ðø¶¯×÷¿Õ¼äÊ±,ÎÞ·¨½øÐÐÇó½â¡£
(3)²ßÂÔËÑË÷Ëã·¨Í¨³£²ÉÓÃËæ»ú²ßÂÔ,Òò´Ë¿ÉÒÔ½«Ì½Ë÷¸üºÃµØÈÚÈë²ßÂÔµÄÑ§Ï°¹ý
³ÌÖÐ¡£Óë
Öµº¯Êý·½·¨Ïà±È½Ï,²ßÂÔËÑË÷·½·¨Í¬Ê±Ò²´æÔÚÒ»Ð©²»×ã,ÀýÈç: 

(1)²ßÂÔËÑË÷·½·¨ÈÝÒ×ÏÝÈë¾Ö²¿×îÐ¡Öµ¡£
(2)²ßÂÔÆÀ¼ÛµÄÑù±¾²»³ä×ãÊ±,»áµ¼ÖÂ·½²î½Ï´ó,×îÖÕÓ°ÏìÊÕÁ²¡£
×î½ü¼¸Äê,ÑÐ¾¿ÕßÃÇÕë¶ÔÕâÐ©È±µãÑÐ¾¿ÁË¸÷ÖÖ½â¾ö·½°¸¡£½ÓÏÂÀ´ÏÈ¶Ô²ßÂÔËÑË÷½øÐÐ
¦¤

½¨Ä£,ÔÙÑ§Ï°Ò»Ð©±È½Ï¾­µäµÄ²ßÂÔËÑË÷·½·¨,Èç²ßÂÔÌÝ¶È·½·¨,×ÔÈ»²ßÂÔÌÝ¶È·½·¨,»ùÓÚ²Î

¦¤

ÊýÌ½Ë÷µÄ²ßÂÔÌÝ¶È·½·¨ÒÔ¼°»ùÓÚEM µÄ²ßÂÔËÑË÷·½·¨¡£

1. 
²ßÂÔËÑË÷·½·¨½¨Ä£
·¨µÄÄ¿µÄ¾ÍÊÇÕÒµ½¿ÉÒÔÊ¹µÃÆÚÍû»Ø±¨ÖµJ(×î´ó»¯µÄ×îÓÅ²ÎÊý,: 
¦È*¡Ã=agmaJ(

²ßÂÔËÑË÷·½·¨Ê¹ÓÃµÄÊÇ²ÎÊý»¯²ßÂÔ,¼´¦Ð(s,:ÆäÖÐ
¦È 
ÊÇ²ßÂÔ²ÎÊý¡£²ßÂÔËÑË÷·½
¦È 
) 
a|
¦È 
)
¼´×îÓÅ²ßÂÔ²ÎÊý¦È*

rx ¦È) 
ÆäÖÐ,ÆÚÍûÀÛ»ý»Ø±¨¿É±íÊ¾Îª²ßÂÔ²ÎÊý
¦È µÄº¯Êý(¦È) : 

J(p(R(d

¦È 
)¡Ã=h|
¦È 
)h)
h 
ÕâÀïÂ·¾¶
h 
·¢ÉúµÄ¸ÅÂÊÃÜ¶ÈÈ¡¾öÓÚ²ßÂÔ¡Ò,¸ù¾ÝÂí¶û¿É·òËæ»úÐÔÖÊ,¿É½«Æä±íÊ¾Îª

T 

p(h|¦È)=s1)¦° st+1|sat)at,

p(p(t,¦Ð(t|s¦È 
)

t=

ÏÂÃæ,½éÉÜÑ°ÕÒ×îÓÅ²ßÂÔ²ÎÊýµÄ¾­µä(1) ·½·¨,±ÈÈç´«Í³µÄ²ßÂÔÌÝ¶È·½·¨,×ÔÈ»²ßÂÔÌÝ¶È
·½·¨,»ùÓÚ²ÎÊýÌ½Ë÷µÄ²ßÂÔÌÝ¶È·½·¨ÒÔ¼°ÆÚÍû×î´ó»¯(ExpectationMaximization,EM) 
²ßÂÔËÑË÷·½·¨¡£

2. 
²ßÂÔÌÝ¶È·½·¨
Ñ°ÕÒ×îÓÅ²ßÂÔ²ÎÊýµÄ×î¼òµ¥¡¢Ò²ÊÇ×î³£ÓÃµÄ·½Ê½ÊÇÌÝ¶ÈÏÂ½µ·¨,ÔÚÇ¿»¯Ñ§Ï°ÁìÓò½«Æä
³ÆÎª²ßÂÔÌÝ¶È·½·¨(REINFORCE), 
¦Å¦ÈJ(ÆäÖÐ
¦Å 
ÎªÑ§Ï°ÂÊ,

¦È 
), 

ÌÝ¶È

ËüÊÇÖ±½ÓÍ¨¹ýÌÝ¶ÈÉÏÉýÑ§Ï°²ßÂÔ²ÎÊý
¦È 
µÄ:
¦È 
¡û
¦È 
+ 

ËüÊÇÒ»¸ö·Ç³£Ð¡µÄÕýÊý¡£Òò´Ë,ÎÊÌâµÄ¹Ø¼üÊÇÈçºÎ¼ÆËã²ßÂÔ

¦ÈJ(

¦È 
)¡£

¶ÔÆÚÍûÀÛ»ý»Ø±¨Çóµ¼,µÃ

¦¤¦¤

¦ÈJ(=¡Ò

¦È 
)

h|
¦È 
)h)

¦Èp(R(dh 

¦¤

h|
¦È 
)

¡Òp(¦È

h)

gp(h|
¦È 
)R(dh

lo

=

T 

p(

=¡Òh|
¦È 
)¦² 

t=1 

g¦Ð(t,R(

¦¤

¦È

loat|s¦È 
)h)dh 

h|
¦ÈJ(

=p(h|
¦È 
)
¦È 
) 

ÕâÀïÊ¹ÓÃÁËl
º¯Êýp(¦È)

h|

¦¤

¦¤

og() º¯ÊýÇóµ¼:¦Èp(¦È)

¦¤

¦Ègp(h|
¦È 
)¡£È»¶ø,Â·¾¶µÄ¸ÅÂÊÃÜ¶È
²»ÄÜÖ±½Ó¼ÆËãµÃµ½¡£¿ÉÒÔÀûÓÃ¾­ÑéÆ½¾ù¹ÀËã: 

lo

Î´Öª,Òò´Ë,²ßÂÔÌÝ¶È

¡¤71¡¤ 


ÀûÓÃµ±Ç°²ßÂÔ²ÉÑùµÃµ½n ÌõÂ·¾¶,È»ºóÓÃÕân ÌõÂ·¾¶µÄ¾­ÑéÆ½¾ù¹À¼Æ²ßÂÔÌÝ¶È,¼´
¦¤¦ÈJ^(¦È )=1 N¦²N 
n=1¦²T 
t=1 
¦¤¦Èlog¦Ð(an
t |sn
t ,¦È )R(hn) 
ÆäÖÐ,hn ¡Ã=[sn1
,an1
,¡­,sn
t ,an
t ]Îª²ÉÑùµÄn ÌõÂ·¾¶Ñù±¾¡£ÓÉ´Ë¿ÉÒÔ¿´³ö,ÌÝ¶È²ßÂÔµÄ¼ÆËã
×îÖÕ×ª»»Îª¶¯×÷²ßÂÔµÄÌÝ¶ÈÖµ¡£
ÎªÁË¸üºÃµØ½øÐÐÌ½Ë÷,Í¨³£Ñ¡ÔñËæ»ú²ßÂÔ¡£¿ÉÒÔ½«Æä±íÊ¾ÎªÈ·¶¨ÐÔ²ßÂÔ¼ÓËæ»ú²¿·Ö¡£
¸ßË¹²ßÂÔÊÇ×î³£ÓÃµÄÒ»ÖÖ²ßÂÔÄ£ÐÍ,¼ÙÉè´Ë´¦µÄ²ßÂÔ²ÎÊýÎª¦È =(¦Ì ,¦Ò),ÆäÖÐ¦Ì Îª¾ùÖµÏò
Á¿,¦Ò Îª±ê×¼²î,¸ßË¹Ëæ»ú²ßÂÔ¿É±íÊ¾Îª
¦Ð(a|s;¦È )= 1 
¦Ò 2¦Ðexp - [a -¦Ì T.(s)]2 
2¦Ò2 { } 
ÆäÖÐ.(s)Îª»ùº¯ÊýÏòÁ¿¡£ÔÚ¸ßË¹Ëæ»ú²ßÂÔÄ£ÐÍÏÂ,¿ÉÒÔºÜÈÝÒ×ÇóµÃ¶¯×÷²ßÂÔÌÝ¶ÈµÄ½â
Îö½â: 
¦¤¦Ìlog¦Ð(a|s,¦È )=
a -¦ÌT.(s) 
¦Ò2 .(s) 
¦¤¦Òlog¦Ð(a|s,¦È )= [a -¦ÌT.(s)]2 -¦Ò2 
¦Ò3 
µ½´ËÎªÖ¹,¿ÉÒÔÍ¨¹ýÌÝ¶ÈÏÂ½µ·¨,¼ÆËã²ßÂÔÌÝ¶È,¸Ä½ø²ßÂÔ²ÎÊý,Ö±µ½ÊÕÁ²ÎªÖ¹,µ«ÊÇ
¸Ã·½·¨µÄÎÊÌâÊÇ¹À¼Æ²ßÂÔÌÝ¶ÈµÄÑù±¾Êý²»×ãÊ±,ÉÏÊö²ßÂÔÌÝ¶ÈµÄ·½²î½Ï´ó,ÈÝÒ×µ¼ÖÂÊÕÁ²
ËÙ¶È½ÏÂýµÄÎÊÌâ¡£
3.×ÔÈ»²ßÂÔÌÝ¶È(naturalpolicygradient) 
REINFORCEÊ¹ÓÃÅ·¼¸ÀïµÃ¾àÀëÀ´¸üÐÂ²ÎÊýµÄ·½Ïò,ÕâÒâÎ¶×ÅËùÓÐ²ÎÊýµÄÎ¬¶È¶ÔËù
µÃµ½µÄ²ßÂÔ¾ù¾ßÓÐ½Ï´óÓ°Ïì¡£ÔÚ¸üÐÂ²ßÂÔÊ±,Ê¹ÓÃ²ßÂÔÌÝ¶È·½·¨µÄÒ»¸öÖ÷ÒªÔ­ÒòÊÇ¿ÉÒÔ
Í¨¹ýÐ¡·ù¶Èµ÷Õû²ÎÊýÀ´ÎÈ¶¨µØ¸Ä±ä²ßÂÔ,È»¶ø¶Ô²ßÂÔ²ÎÊýµÄÐ¡·ù¶Èµ÷Õû¿ÉÄÜ»áÔì³É²ßÂÔ
µÄ´ó·ù¶È¸Ä±ä¡£ÎªÁËÄÜ¹»Ê¹²ßÂÔ¸üÐÂ¹ý³ÌÏà¶ÔÎÈ¶¨,¾ÍÐèÒª·Ö²¼¦Ð(at|st,¦È )±£³ÖÏà¶ÔÎÈ
¶¨,ÔÚÃ¿´Î¸üÐÂºó·Ö²¼²»»á²úÉú½Ï´ó±ä»¯¡£Õâ¾ÍÊÇ×ÔÈ»²ßÂÔÌÝ¶È·½·¨µÄºËÐÄË¼Ïë¡£
Ã¿´Îµü´úºó¶Ô²ÎÊý¦È ½øÐÐ¸üÐÂ,²ßÂÔ¦Ð(at|st,¦È )×ÔÈ»Ò²ËæÖ®¸Ä±ä¡£²ßÂÔ·Ö²¼ÔÚ¸üÐÂ
Ç°ºó´æÔÚÒ»¶¨²îÒì¡£ÔÚ×ÔÈ»ÌÝ¶È·¨ÖÐÊ¹ÓÃKullbackLeibler(KL)É¢¶ÈÀ´²âÁ¿µ±Ç°²ßÂÔÏÂ
µÄÂ·¾¶·Ö²¼Óë¸üÐÂµÄ²ßÂÔÏÂÂ·¾¶·Ö²¼Ö®¼äµÄ¾àÀë¡£KLÉ¢¶ÈÊÇÁ½¸öËæ»ú·Ö²¼¾àÀëµÄ¶È
Á¿,¼ÇÎªDKL(p||q)¡£ËüºâÁ¿Á½¸ö·Ö²¼p ºÍq µÄÏàËÆ³Ì¶È¡£FisherÐÅÏ¢¾ØÕó¿ÉÒÔÓÃÀ´½ü
ËÆµ±Ç°²ßÂÔÏÂµÄÂ·¾¶·Ö²¼p(h|¦È )ºÍ¸üÐÂ¦È ÖÁ¦È +¦¤¦È ºó²ßÂÔÏÂµÄÂ·¾¶·Ö²¼p(h|¦È +¦¤¦È ) 
Ö®¼äµÄ¾àÀë(¦¤¦È ·Ç³£Ð¡),½«FisherÐÅÏ¢¾ØÕóÓÃF¦È À´±íÊ¾
KL[p(h|¦È )||p(h|¦È+¦¤¦È )]¡Ö ¦¤¦È TF¦È¦¤¦È 
F¦È =¡Òp(h|¦È ) ¦¤¦Èlogp(h|¦È ) ¦¤¦Èlogp(h|¦È )Tdh 
Óë´«Í³²ßÂÔÌÝ¶È¸üÐÂ¦¤¦ÈJ(¦È )ÀàËÆ,×ÔÈ»ÌÝ¶ÈÒ²¸üÐÂ²ßÂÔ²ÎÊý,Ê¹µÃ²ßÂÔ¸üÐÂÇ°Óë¸üÐÂºó
µÄÂ·¾¶·Ö²¼Ö®¼äµÄKLÉ¢¶È²»´óÓÚ¦Å: 
KL[p(h|¦È )||p(h|¦È+¦¤¦È )]¡Ü¦Å 
ÆäÖÐ¦Å ºÜÐ¡,Ç÷ÓÚ0¡£Ò²¾ÍÊÇËµ×ÔÈ»ÌÝ¶È²ßÂÔ·½·¨¿ÉÒÔ±£Ö¤²ßÂÔ²ÎÊýµÃµ½×î´ó³Ì¶ÈµÄ¸Ä
±äÊ±,²ßÂÔ¸üÐÂÇ°ºóµÄÂ·¾¶·Ö²¼Ö»·¢ÉúÎ¢Ð¡µÄ±ä»¯,´Ó¶ø±£Ö¤²ßÂÔ¸üÐÂ¹ý³ÌÏà¶ÔÎÈ¶¨¡£ÎÒ
¡¤72¡¤