3.1Ïß ÐÔ »Ø ¹é
ÏßÐÔ»Ø¹éÍ¨¹ýÄâºÏ¹ØÓÚ¹Û²âÊý¾ÝµÄÏßÐÔ·½³ÌÀ´½¨Ä£Á½¸ö±äÁ¿¼äµÄ¹ØÏµ£¬ÆäÖÐÒ»¸ö±äÁ¿ÊÇ×Ô±äÁ¿£¬ÁíÒ»¸öÊÇÒò±äÁ¿£¬×Ô±äÁ¿ÓëÒò±äÁ¿¶¼¿ÉÒÔÊÇ¶àÔª±äÁ¿¡£¶àÔª×Ô±äÁ¿¶ÔÓ¦ÊÂÎïµÄ¶à¸öÊäÈëÌØÕ÷£¬¶àÔªÒò±äÁ¿¶ÔÓ¦ÊÂÎïµÄ¶àÖÖÊä³öÐÅÏ¢¡£ÀýÈç£¬¿ÉÒÔÍ¨¹ýÒ»¸öÏßÐÔ»Ø¹éÄ£ÐÍÀ´¹ØÁªÐÜÃ¨µÄÐÔ±ð¡¢ÄêÁä¡¢ÌåÖØºÍÊ³Á¿,ÆäÖÐÐÔ±ð¡¢ÄêÁäºÍÌåÖØ×÷Îª×Ô±äÁ¿£¬Ê³Á¿×÷ÎªÒò±äÁ¿¡£
ÏÂÃæ¸ø³öÏßÐÔ»Ø¹éµÄÔ­ÀíÓë±íÊ¾¡£¸ø¶¨ÓÐN¸öÑù±¾µÄÊý¾Ý¼¯ ={yi,xi1,xi2,¡­,xiD}Ni=1£¬ÏßÐÔ»Ø¹éÄ£ÐÍ¼ÙÉèÒò±äÁ¿yiÓë×Ô±äÁ¿xi£¨ÓÉ{xi1,xi2,¡­,xiD}¹¹³ÉµÄDÎ¬ÏòÁ¿£©¼äÊÇÏßÐÔ¹ØÏµ¡£´Ë¹ØÏµÍ¨¹ý»Ø¹éÏµÊý¦Â¹¹½¨,Ä£ÐÍµÄÐÎÊ½Îª:yi=¦Â01+¦Â1xi1+¡­+¦ÂDxiD=x i¦Â,i=1,2,¡­,N(3.1)ÆäÖÐx i¦Â±íÊ¾ÏòÁ¿xiºÍÏòÁ¿¦ÂÖ®¼äµÄÄÚ»ý¡£Í¨³£ÎÒÃÇ»á°ÑÒ»¸ö³£Êý1°üº¬ÔÚ×Ô±äÁ¿Àï£¬ÒÔµÃµ½¼ò½à±íÊ¾£¬Ò²¾ÍÊÇËµ£¬¿ÉÒÔÉèxi0=1,i=1,2,¡­,N¡£¶ÔÓ¦µÄ¦Â0±»³ÆÎª½Ø¾à¡£µ±D=1£¬¼´xiÊÇ±êÁ¿ÇÒyiÒ²Îª¼òµ¥µÄ±êÁ¿Ê±£¬Ä£ÐÍ³ÆÎª¼òµ¥ÏßÐÔ»Ø¹é£»µ±×Ô±äÁ¿xiÊÇÏòÁ¿Ê±£¬Ä£ÐÍ³ÆÎª¶àÔªÏßÐÔ»Ø¹é¡£
ÁíÍâ£¬ÖµµÃ×¢ÒâµÄÊÇ£¬×Ô±äÁ¿²»Ò»¶¨ÊÇÔ­Ê¼µÄÊý¾ÝÌØÕ÷£¬¿ÉÒÔÊÇÔ­Ê¼ÌØÕ÷µÄ·ÇÏßÐÔº¯Êý¡£Ö»ÒªÄ£ÐÍ¹ØÓÚ²ÎÊýÏòÁ¿¦ÂÊÇÏßÐÔµÄ£¬Ä£ÐÍ¾Í±»ÈÏÎªÊÇÏßÐÔÄ£ÐÍ£»Èç¹ûÄ£ÐÍ¹ØÓÚ²ÎÊýÊÇ·ÇÏßÐÔµÄ£¬Ôò±»ÈÏÎªÊÇ·ÇÏßÐÔÄ£ÐÍ¡£¼ÙÉè¦¼(xi)±íÊ¾¶ÔÊäÈëÌØÕ÷µÄ±ä»»º¯Êý£¬Ò²³ÆÎª»ùº¯Êý£¬ÄÇÃ´ÏßÐÔ»Ø¹é¿ÉÒÔ±íÊ¾Îª¸üÒ»°ã»¯µÄÐÎÊ½£¬¼´yi=¦¼(xi) ¦Â(3.2)³£¼ûµÄ»ùº¯ÊýÓÐ3ÖÖ£¬¼´
¢Ù ¶àÏîÊ½»ùº¯Êý¡£¦¼j(x)=xj(3.3)¢Ú ¸ßË¹»ùº¯Êý¡£¦¼j(x)=exp-(x-¦Ìj)22s2(3.4)¢Û SÐÎ£¨sigmoidal£©»ùº¯Êý¡£¦¼j(x)=¦Òx-¦Ìjs,¦Ò(a)=11+exp(-a)(3.5)3ÖÖ»ùº¯ÊýµÄÊ¾ÒâÍ¼ÈçÍ¼3ª²1ËùÊ¾¡£
Í¼3ª²13ÖÖ»ùº¯ÊýÊ¾ÒâÍ¼
×¢: Ã¿ÕÅ×ÓÍ¼Õ¹Ê¾ÁËÊ¹ÓÃ²»Í¬²ÎÊý²úÉúµÄ3Ìõ»ùº¯ÊýÇúÏß
µÃµ½»Ø¹éÄ£ÐÍºó£¬¿ÉÒÔÍ¨¹ý¹«Ê½(3.2)¶ÔÐÂµÄ²âÊÔÊý¾Ý½øÐÐÔ¤²â,ÄÇÃ´²âÊÔÊäÈëxª³µÄÔ¤²âÊä³öyª³±íÊ¾Îªyª³=¦¼(xª³) ¦Â¡£ÎªµÃµ½¸Ã»Ø¹éº¯ÊýÖÐ²ÎÊýµÄ×îÓÅÖµ£¬±¾½Ú½«½éÉÜÁ½ÖÖ¶ÔÏßÐÔ»Ø¹éÄ£ÐÍµÄÑµÁ··½·¨: ×îÐ¡¶þ³ËºÍÕýÔò»¯×îÐ¡¶þ³Ë¡£
¡¾Ê¾Àý¡¿ÏÂÃæÍ¨¹ý¹À¼ÆÐÜÃ¨Ê³Á¿µÄÀý×Ó½éÉÜÈçºÎÊ¹ÓÃÏßÐÔ»Ø¹é½¨Ä£Êý¾Ý¡£Ò»Æª¹ØÓÚÈ¦Ñø´óÐÜÃ¨Ê³ÖñÁ¿¹Û²ìµÄÎÄÏ×¼ÇÂ¼ÁË4Ö»´óÐÜÃ¨µÄÒ¹¼äÊ³ÖñÁ¿£¬Èç±í3ª²1ËùÊ¾¡£±í3ª²1´óÐÜÃ¨Æ½¾ùÒ¹¼äÊ³ÖñÁ¿£Û1£Ý(µ¥Î»: kg)ÐÜÃ¨ÃûÐÔ±ðÄêÁä/ËêÌåÖØ1ÔÂ2ÔÂ3ÔÂ4ÔÂ5ÔÂ6ÔÂ7ÔÂ8ÔÂ9ÔÂ10ÔÂ11ÔÂ12ÔÂÀòÀò´Æ10¡«11102.52.83.32.63.52.74.91.31.71.91.62.53.9ÇàÇà´Æ3¡«482.53.43.73.73.94.15.71.62.12.42.73.34.1½ð½ðÐÛ22¡«23128.01.92.51.72.12.24.51.11.51.21.71.72.1Æ½Æ½ÐÛ9¡«1082.04.24.44.14.64.56.93.23.53.43.43.74.5´Ó±í3ª²1ÖÐ¿ÉÒÔ¿´³ö£¬Ê³ÖñÁ¿ÓëÐÜÃ¨µÄÐÔ±ð¡¢ÄêÁä¡¢ÌåÖØ¼°ÔÂ·Ý¶¼ÓÐ¹ØÏµ£¬²¢ÇÒ´ÓÊý¾Ý¿ÉÒÔ¼òµ¥µØ·ÖÎöµÃµ½Ê³ÖñÁ¿ÓëÔÂ·ÝÓÐÁ½¶Î²»Í¬µÄ¹æÂÉ¡£Òò´Ë¿ÉÒÔÒÔ7ÔÂÎª½çÏÞ£¬·ÖÁ½¶Î½øÐÐÏßÐÔ»Ø¹é,Ã¿Ò»¶ÎÓÐ24¸öÑµÁ·Ñù±¾¡£ÔÚ¸ÃÊ¾ÀýÖÐ£¬×Ô±äÁ¿ÊÇÒ»¸öËÄÎ¬ÏòÁ¿x=(x1,x2,x3,x4)£¬Òò±äÁ¿ÊÇÒ»¸ö±êÁ¿y¡£¼Ù¶¨ÓÃÏßÐÔÄ£ÐÍ½¨Ä££¬¼´yi=¦Â0+¦Â1xi1+¦Â2xi2+¦Â3xi3+¦Â4xi4(3.6)Èç¹ûÒª½øÒ»²½ÔöÇ¿Ä£ÐÍµÄÁé»îÐÔ£¬¿ÉÒÔ¶ÔÄ³Ð©×Ô±äÁ¿ÏÈ½øÐÐ·ÇÏßÐÔ±ä»»£¬µÃµ½ÐÂµÄ×Ô±äÁ¿x~,ÔÙ½øÐÐÏßÐÔ»Ø¹é½¨Ä£¡£´ËÊ±£¬ËäÈ»Ä£ÐÍ¹ØÓÚÄ³Ð©±äÁ¿ÊÇ·ÇÏßÐÔµÄ£¬µ«ÊÇ¹ØÓÚ²ÎÊý»¹ÊÇÏßÐÔµÄ¡£¶ÁÕß¿ÉÒÔ³¢ÊÔ¶ÔÉÏÊöÊ¾ÀýÖÐµÄÊäÈëÌØÕ÷ÉèÖÃºÏÊÊµÄ·ÇÏßÐÔ±ä»»£¬È»ºó½øÐÐÏßÐÔ»Ø¹é½¨Ä£¡£
ÕýÈçÇ°ÎÄÖÐ½éÉÜµÄ£¬Ê¹ÓÃ¸ÅÂÊÄ£ÐÍÊÇ½¨Ä£²»È·¶¨ÐÔµÄÓÐÐ§·½·¨¡£¸ÅÂÊÏßÐÔ»Ø¹éµÄÒ»ÖÖÊµÏÖ·½Ê½ÊÇÊ¹ÓÃ¸ßË¹Ëæ»úÔëÉùÊµÏÖ¸ÅÂÊ½¨Ä£¡£¾ßÌåÀ´Ëµ,¹Û²âÊä³ö±»¼ÙÉèÎªÈ·¶¨ÐÔµÄÏßÐÔ»Ø¹éÔÙ¼ÓÉÏÒ»¸ö¸ßË¹Ëæ»úÔëÉù£¬±íÊ¾Îªy=f(x,¦Â)+¦º£¬¦º¡« (0,¦Ò2)(3.7)ÆäÖÐf(x,¦Â)=¦¼(x) ¦Â(3.8)¸ù¾Ý¸ÅÂÊ·Ö²¼µÄ±ä»»¹ØÏµ,¿ÉÒÔµÃµ½Ã¿¸ö¹Û²âÊý¾ÝµÄËÆÈ»¸ÅÂÊ·Ö²¼Îªp(y|x,¦Â,¦Ò2)= (y|f(x,¦Â),¦Ò2)(3.9)´¦ÀíÊµ¼ÊÎÊÌâÊ±£¬Ä£ÐÍÍ¨³£¼ÙÉèÊý¾ÝÊÇ¶ÀÁ¢Í¬·Ö²¼µÄ£¬ËùÓÐ¹Û²âyµÄËÆÈ»¸ÅÂÊ·Ö²¼±íÊ¾Îªp(y| X,¦Â,¦Ò2)=¡ÇNi=1 (yi|f(xi,¦Â),¦Ò2)(3.10)È·¶¨ÁËÄ£ÐÍµÄ¸ÅÂÊ±íÊ¾Ö®ºó£¬¶ÔÓÚÐÂµÄ²âÊÔÊý¾Ý£¬¿ÉÒÔÊ¹ÓÃÊä³ö±äÁ¿µÄÆÚÍû×÷ÎªÔ¤²âÖµ,¼ÆËã±í´ï¹«Ê½Îª £Ûy|xª³£Ý=¡Òyp(y|xª³,¦Â,¦Ò2)dy=f(xª³,¦Â)(3.11)¹ØÓÚÈçºÎÈ·¶¨Ä£ÐÍÖÐµÄ²ÎÊýÖµ£¬ÏÂÃæ½«½éÉÜ¶Ô¸ÅÂÊÏßÐÔ»Ø¹éÄ£ÐÍµÄ×î´óËÆÈ»¹À¼ÆºÍ×î´óºóÑé¹À¼Æ£¬²¢ËµÃ÷¶þÕß·Ö±ðÓë×îÐ¡¶þ³ËºÍÕýÔò»¯×îÐ¡¶þ³ËÖ®¼äµÄ¹ØÏµ¡£
3.1.1×îÐ¡¶þ³ËÓë×î´óËÆÈ»
×îÐ¡¶þ³Ë·¨(least square method)ÖÐ¡°×îÐ¡¶þ³Ë¡±µÄÒâË¼ÊÇ×îÐ¡»¯Îó²îµÄÆ½·½ºÍ£¬Îó²îÊÇÖ¸¹Û²âÊý¾ÝµÄÕæÊµÊä³öÖµºÍÓÉÄ£ÐÍÄâºÏµÄÒò±äÁ¿ÖµÖ®¼äµÄ²î¡£ÏÂÃæ·Ö±ð¸ø³ö×îÐ¡¶þ³ËÎÊÌâµÄÃèÊö£¬ÈçºÎÇó½â×îÐ¡¶þ³ËÎÊÌâ£¬ÒÔ¼°¸ÅÂÊÏßÐÔ»Ø¹éµÄ×î´óËÆÈ»¹À¼Æ¡£
(1) ×îÐ¡¶þ³ËÎÊÌâÃèÊö¡£
¸ø¶¨ÓÐN¸öÊý¾Ýµã(xi,yi)µÄÊý¾Ý¼¯£¬ÆäÖÐxiÎª×Ô±äÁ¿£¬yiÎªÒò±äÁ¿¡£Ä£ÐÍº¯Êý¾ßÓÐÐÎÊ½f(xi,¦Â)£¬ÆäÖÐ¦Â±£´æÁËD¸ö¿Éµ÷ÕûµÄ²ÎÊý¡£×îÐ¡¶þ³ËÎÊÌâµÄÄ¿±êÎªµ÷ÕûÄ£ÐÍº¯ÊýµÄ²ÎÊý×îºÃµØÄâºÏÊý¾Ý¼¯¡£Ä£ÐÍ¶ÔÊý¾ÝµÄÄâºÏ³Ì¶ÈÊÇÍ¨¹ýÆäÎó²îÀ´²âÁ¿µÄ¡£Îó²î¶¨ÒåÎªÒò±äÁ¿µÄÕæÊµÖµºÍÄ£ÐÍÔ¤²âÖµÖ®¼äµÄ²î£¬¼´ei=yi-f(xi,¦Â)(3.12)ÒÔÇúÏßÄâºÏÎªÀý£¬Îó²îµÄ¼¸ºÎÒâÒåÈçÍ¼3ª²2ËùÊ¾¡£×îÐ¡¶þ³Ë·¨Í¨¹ý×îÐ¡»¯Æ½·½Îó²îºÍSÑ§Ï°×îÓÅ²ÎÊýÖµ£¬¼´S=¡ÆNi=1e2i=¡ÆNi=1(yi-f(xi,¦Â))2(3.13)Í¼3ª²2Îó²îµÄ¼¸ºÎÒâÒåÊ¾ÒâÍ¼
×¢: Í¼ÖÐ×ÝÏòÏß¶Î³¤¶È´ú±í²»Í¬Êý¾ÝµãµÄÎó²î
(2) Çó½â×îÐ¡¶þ³ËÎÊÌâ¡£
ÉÏÊöÆ½·½ºÍµÄ×îÐ¡»¯¿ÉÍ¨¹ý½«¶ÔÓÅ»¯Ä¿±ê¹ØÓÚ²ÎÊýµÄµ¼ÊýÉèÎª0Çó½âµÃµ½¡£Èç¹û·Ö±ð¿¼ÂÇÃ¿Ò»¸ö²ÎÊý£¬ÄÇÃ´ÓÉÓÚÄ£ÐÍÓÐD¸ö²ÎÊý£¬¾ÍÓÐD¸öÌÝ¶È·½³Ì£¬¼´ªµSªµ¦Âd=0,d=1,2,¡­,D(3.14)´úÈë¹«Ê½(3.13)¿ÉµÃ-2¡ÆNi=1yi-f(xi,¦Â)ªµf(xi,¦Â)ªµ¦Âd=0,d=1,2,¡­,D(3.15)¹«Ê½(3.15)ÖÐµÄÌÝ¶È·½³ÌÊÊÓÃÓÚËùÓÐ×îÐ¡¶þ³ËÎÊÌâ¡£Ã¿¸ö¾ßÌåÎÊÌâÓÐÌØ¶¨µÄÄ£ÐÍ±í´ïÊ½ºÍÏàÓ¦µÄÆ«µ¼Êý¡£µ±È»£¬Çó½â¹«Ê½(3.13)¸ø³öµÄ×îÐ¡Æ½·½Îó²îºÍÒ²¿ÉÒÔÖ±½ÓÊ¹ÓÃÏòÁ¿Î¢»ý·ÖµÄ·½·¨£¬Ö±½Ó¶ÔÓÅ»¯Ä¿±ê¹ØÓÚ²ÎÊýÏòÁ¿Çóµ¼½âµÃ¡£
ÏÂÃæÒÔÏßÐÔ»Ø¹éÎÊÌâÎªÀý£¬¾ßÌå½éÉÜ×îÐ¡¶þ³Ë·¨µÄ½â¡£ÓÉ¹«Ê½(3.2)¿ÉÖª£¬Ò»°ã»¯µÄÏßÐÔ»Ø¹éÄ£ÐÍ±íÊ¾Îªf(xi,¦Â)=¦¼(xi) ¦Â¡£¶¨ÒåX=£Ûx1,x2,¡­,xN£Ý £¬y=£Ûy1,y2,¡­,yN£Ý £¬¦µ=£Û¦¼(x1),¦¼(x2),¡­,¦¼(xN)£Ý £¬ÄÇÃ´Ä£ÐÍÔÚÑµÁ·Êý¾ÝÉÏµÄÔ¤²âÆ½·½Îó²îÎªS=(y-¦µ¦Â) y-¦µ¦Â(3.16)¸ù¾Ý¹«Ê½(3.14)¿ÉÒÔµÃµ½¦ÂµÄ×îÓÅÖµÂú×ãdSd¦Â=d((y-¦µ¦Â) (y-¦µ¦Â))d¦Â=0 (3.17)ÆäÖÐ£¬0±íÊ¾ÔªËØÎª0µÄÁÐÏòÁ¿£¬d((y-¦µ¦Â) (y-¦µ¦Â))¿ÉÀûÓÃÏòÁ¿Î¢»ý·ÖµÄÔËËã·¨Ôò£¨¸½Â¼C£©×÷½øÒ»²½»¯¼ò£¬¼´d((y-¦µ¦Â) (y-¦µ¦Â))=(d(y-¦µ¦Â) )(y-¦µ¦Â)+(y-¦µ¦Â) d(y-¦µ¦Â)
=2(y-¦µ¦Â) d(y-¦µ¦Â)
=-2(y-¦µ¦Â) ¦µd¦Â
=2(¦Â ¦µ ¦µ-y ¦µ)d¦Â(3.18)Òò´Ë£¬µÃµ½¦ÂµÄ×îÓÅÖµÎª¦Â^ s=(¦µ ¦µ)-1¦µ y(3.19)È·¶¨ÐÔÏßÐÔ»Ø¹éµÄÓÅ»¯×¼ÔòÍ¨³£Ê¹ÓÃËðÊ§º¯ÊýÀ´¶¨Òå£¬×îÐ¡¶þ³Ë·½·¨Ê¹ÓÃµÄÊÇ×îÐ¡»¯Æ½·½Îó²îºÍ¡£¸ÅÂÊÏßÐÔ»Ø¹éµÄÓÅ»¯×¼ÔòÍ¨³£ÒÔ×î´óËÆÈ»ÎªÄ¿±ê£¬ÕâÀï¸ø³öÆä×î´óËÆÈ»½â£¬²¢ËµÃ÷Óë×îÐ¡¶þ³ËÖ®¼äµÄ¹ØÏµ¡£
(3) ¸ÅÂÊÏßÐÔ»Ø¹éµÄ×î´óËÆÈ»¹À¼Æ¡£
µ±¸ÅÂÊÏßÐÔ»Ø¹éµÄËÆÈ»¼ÙÉèÎª¸ßË¹·Ö²¼Ê±£¬Èç¹«Ê½(3.10)£¬Æä¶ÔÊýËÆÈ»µÄ±í´ïÊ½¿ÉÒÔ½øÒ»²½ÍÆµ¼µÃ³ölnp(y|X,¦Â,¦Ò2)=-12¦Ò2¡ÆNi=1yi-f(xi,¦Â)2-N2ln¦Ò2-N2ln(2¦Ð)(3.20)×î´ó»¯¹«Ê½(3.20)¿ÉÒÔ»ñµÃ²ÎÊý¦ÂºÍ¦Ò2µÄ×î´óËÆÈ»¹À¼Æ¡£¶þÕßµÄ½á¹ûÎª¦Â^m =(¦µ ¦µ)-1¦µ y(3.21)
¦Ò^2m =1N¡ÆNi=1yi-f(xi,¦Â^m )2(3.22)Òò´Ë£¬¿ÉÒÔ¿´³öµ±¹Û²âÊý¾Ý·þ´Ó¸ßË¹·Ö²¼Ê±£¬ÏßÐÔ»Ø¹é²ÎÊý¦ÂµÄ×îÐ¡¶þ³Ë½âºÍ×î´óËÆÈ»¹À¼ÆÊÇµÈ¼ÛµÄ¡£
3.1.2ÕýÔò»¯×îÐ¡¶þ³ËÓë×î´óºóÑé
»Ø¹éÄ£ÐÍ¾­³£Óöµ½Êý¾Ý¹ýÄâºÏ£¨overfitting£©ÎÊÌâ£¬Ò²¾ÍÊÇÄ£ÐÍÔÚÑµÁ·¼¯ÉÏµÄÄâºÏÎó²îºÜÐ¡£¬µ«ÊÇÔÚ²âÊÔ¼¯ÉÏµÄÎó²îºÜ´ó¡£¹ýÄâºÏÍ¨³£·¢ÉúÔÚÊý¾ÝÁ¿½ÏÉÙ»òÄ£ÐÍµÄ¸´ÔÓ¶ÈÌ«¸ßÊ±¡£ÀýÈç£¬ÔÚÏßÐÔ»Ø¹éÖÐ£¬¶ÔÊý¾ÝÌØÕ÷ÒýÈë¶àÏîÊ½±ä»»£¬»Ø¹éÏµÊýµÄÊýÁ¿Ô½¶à£¬Ôò»áµ¼ÖÂÇúÏßµÄ²¨¶¯Ô½´ó£¬´ËÊ±ÇúÏßÈÝÒ×¶ÔÊý¾Ý²úÉú¹ýÄâºÏ¡£Í¼3ª²3¸ø³öÁË4ÖÖ¶àÏîÊ½ÄâºÏµÄÐ§¹û¡£
Í¼3ª²34ÖÖ²»Í¬µÄ¶àÏîÊ½ÄâºÏÐ§¹û
×¢: Í¼ÖÐÐ¡Ô²È¦±íÊ¾Ñù±¾£¬ÐéÏß±íÊ¾ÕæÊµÇé¿ö£¬ÊµÏß±íÊ¾ÄâºÏÇúÏß£¬Ê¹ÓÃµÄ¶àÏîÊ½ÐÎÊ½Îªf(x)=¡Ædegj=0wjxj£¬deg±íÊ¾¶àÏîÊ½µÄ½×Êý£¬4ÕÅ×ÓÍ¼·Ö±ðÊ¹ÓÃ²»Í¬µÄ½×Êý
Í¨³£Çé¿öÏÂ£¬Ä£ÐÍµÄ¸´ÔÓ¶ÈÊÇÏà¶ÔµÄ£¬ËüÓëÊý¾ÝÁ¿Ïà¹Ø¡£Èç¹ûÑµÁ·Êý¾Ý×ã¹»¶à£¬¸ß¸´ÔÓ¶ÈµÄÄ£ÐÍ¿ÉÒÔºÜºÃµØÄâºÏÊý¾Ý£»Èç¹ûÊý¾ÝÁ¿½ÏÉÙ£¬¾ÍÐèÒªÒ»¸öÏà¶Ô¼òµ¥µÄÄ£ÐÍÀ´ÄâºÏÊý¾Ý¡£ÔÚÊµ¼ÊÓ¦ÓÃÖÐ£¬Êý¾ÝÁ¿µÄ¶àÉÙÍ¨³£ÊÇÎÞ·¨¸Ä±äµÄ£¬½¨Ä£Õß¿ÉÒÔ¿ØÖÆµÄÊÇÄ£ÐÍµÄÉèÖÃ£¬Ï£Íû¿ÉÒÔÍ¨¹ýÄ³ÖÖÔ¼ÊøÊµÏÖ¶ÔÊý¾Ý½ÏÎªºÏÊÊµÄÄâºÏ¡£¶ÔÓÚÊ¹ÓÃ¶àÏîÊ½±ä»»µÄÏßÐÔ»Ø¹éµÄÀý×Ó£¬»Ø¹éÏµÊýÊÇ¹Ø¼ü²ÎÊý£¬Èç¹û¹Ì¶¨¶àÏîÊ½µÄ´ÎÊý£¬¿ØÖÆ»Ø¹éÏµÊýµÄ´óÐ¡Í¬Ñù¿ÉÒÔ¿ØÖÆÄ£ÐÍ¸´ÔÓ¶È¡£
(1) ÕýÔò»¯×îÐ¡¶þ³Ë¡£
ÓÉÓÚ»Ø¹éÏµÊýÔ½´óÄ£ÐÍ²¨¶¯Ô½´ó£¬ÎªÁË½µµÍ¹ýÄâºÏµÄ·çÏÕ£¬¿ÉÒÔ¶Ô»Ø¹éÏµÊý½øÐÐÔ¼Êø¡£¶Ô×îÐ¡¶þ³Ë½øÐÐÕýÔò»¯µÄ·½·¨½Ð×÷ÕýÔò»¯×îÐ¡¶þ³Ë¡£ÀýÈç£¬Ô¼Êø»Ø¹éÏµÊý¹¹³ÉµÄÏòÁ¿µÄL2·¶ÊýµÄÆ½·½£¨¡¬¦Â¡¬L2=¦Â ¦Â£©²»³¬¹ýÒ»¸ö¸ø¶¨Öµ¡£¸ÃÔ¼ÊøÏàµ±ÓÚÇó½âÒ»¸ö´øÓÐ³Í·£Ïî£¨penalty term£©¦Ë¡¬¦Â¡¬2µÄ×îÐ¡¶þ³ËµÄÎÞÔ¼Êø×îÐ¡»¯ÎÊÌâ¡£´ËÊ±£¬ÕýÔò»¯×îÐ¡¶þ³ËµÄÓÅ»¯Ä¿±êÎªS¡ä=¡ÆNi=1yi-f(xi,¦Â)2+¦Ë¦Â ¦Â(3.23)ÆäÖÐ¦ËÊÇ³£Êý£¬¿ÉÒÔÍ¨¹ýÄ£ÐÍÑ¡ÔñµÄ·½·¨È·¶¨È¡Öµ¡£Ê¹ÓÃL2·¶Êý×÷Îª³Í·£ÏîµÄÕýÔò»¯×îÐ¡¶þ³ËÒ²³ÆÎªÁë»Ø¹é£Û2£Ý¡£
ÕýÔò»¯×îÐ¡¶þ³Ë²»½öÏÞÓÚL2·¶Êý£¬ÆäËûÈçL1·¶Êý£¨¡¬¦Â¡¬L1=¡Æd|¦Âd|£©µÈÒ²ÊÇ¿ÉÐÐµÄ£¬²»Í¬µÄÕýÔò»¯Ïî¾ßÓÐ²»Í¬µÄÔ¼ÊøÐÔÖÊ¡£ÀýÈç£¬L2·¶ÊýµÄ³Í·£Ïî¿ÉÒÔ°ïÖúÄ£ÐÍ±ÜÃâ¹ýÄâºÏ£¬L1·¶ÊýµÄ³Í·£Ïî³ýÁËÊ¹µÃÄ£ÐÍ¼õÇá¹ýÄâºÏÒÔÍâ£¬»¹ÄÜ¹»µÃµ½½ÏÎªÏ¡ÊèµÄ²ÎÊý½â¡£ÎªÁËÖ±¹ÛÀí½âÁ½ÖÖÕýÔò»¯·½·¨£¬Í¼3ª²4Õ¹Ê¾ÁËÕâÁ½ÖÖÕýÔò»¯ÏîµÄµÈ¸ßÏß¡£
Í¼3ª²4L1·¶ÊýºÍL2·¶ÊýµÄµÈ¸ßÏßÊ¾ÒâÍ¼
×¢: Í¼ÖÐµÄÇúÏß±íÊ¾¶þÎ¬¿Õ¼äÖÐµÄÏòÁ¿x=£Ûx1,x2£Ý µÄL1·¶Êý¡¬x¡¬L1ºÍL2·¶Êý¡¬x¡¬L2µÄµÈ¸ßÏß
(2) Çó½âÕýÔò»¯×îÐ¡¶þ³ËÎÊÌâ¡£
Çó½âÕýÔò»¯×îÐ¡¶þ³ËÓëÇó½â×îÐ¡¶þ³ËÊÇÀàËÆµÄ£¬Í¬Ñù¿ÉÒÔÊ¹ÓÃÇóµ¼ÊýµÄ·½·¨µÃµ½²ÎÊýµÄ±ÕÊ½½â¡£¶ÔÓÚÊ¹ÓÃL2·¶ÊýµÄÕýÔò»¯×îÐ¡¶þ³Ë£¬Æä×îÓÅ½âÂú×ãdS¡äd¦Â=dy-¦µ¦Â y-¦µ¦Â+¦Ë¦Â ¦Âd¦Â=0 (3.24)d£¨£¨y-¦µ¦Â£© £¨y-¦µ¦Â£©£©¿ÉÀûÓÃÏòÁ¿Î¢»ý·ÖµÄÔËËã·¨Ôò£¨¸½Â¼C£©½øÒ»²½»¯¼òÎªd((y-¦µ¦Â) (y-¦µ¦Â)+¦Ë¦Â ¦Â)=2((y-¦µ¦Â) d(y-¦µ¦Â)+¦Ë¦Â d¦Â)
=-2((y-¦µ¦Â) ¦µ-¦Ë¦Â )d¦Â
=2(¦Â ¦µ ¦µ-y ¦µ+¦Ë¦Â )d¦Â(3.25)Òò´Ë£¬µÃµ½¦ÂµÄ×îÓÅÖµÎª¦Â^rls=(¦ËI+¦µ ¦µ)-1¦µ y(3.26)(3) ¸ÅÂÊÏßÐÔ»Ø¹éµÄ×î´óºóÑé¹À¼Æ¡£
»Ø¹Ë3.1.1½Ú£¬ÏßÐÔ»Ø¹éµÄËÆÈ»¼ÙÉèÎª¸ßË¹·Ö²¼Ê±£¬Èç¹ûÊ¹ÓÃ×î´óºóÑé¹À¼ÆÀ´»ñÈ¡Ä£ÐÍ²ÎÊý£¬ÐèÒª¼ÙÉè²ÎÊýµÄÏÈÑé·Ö²¼¡£ÔÚ¸ßË¹ËÆÈ»µÄÄ£ÐÍÖÐ£¬Í¨³£Ê¹ÓÃ¸ßË¹·Ö²¼×÷ÎªÏÈÑé£¬ÕâÑùµÃµ½µÄ¸ÅÂÊÏßÐÔ»Ø¹éÖÐ²ÎÊýµÄºóÑé·Ö²¼»¹ÊÇ¸ßË¹·Ö²¼¡£Ò»ÖÖ¼òµ¥³£ÓÃµÄÏÈÑé·Ö²¼Îªp(¦Â|¦Á)= (¦Â|0,¦Á-1I)(3.27)¸ù¾Ý±´Ò¶Ë¹¹«Ê½¿ÉÒÔµÃ³ö²ÎÊýµÄ¶ÔÊýºóÑé·Ö²¼Îªlnp(¦Â|X,y,¦Á,¦Ò2)=-12¦Ò2¡ÆNi=1yi-f(xi,¦Â)2-¦Á2¦Â ¦Â+const(3.28)ÆäÖÐconst±íÊ¾Óë¦ÂÎÞ¹ØµÄÏî¡£½«×î´óºóÑé¹À¼ÆµÄÓÅ»¯Ä¿±ê(¹«Ê½(3.28))ÓëÕýÔò»¯×îÐ¡¶þ³ËµÄÄ¿±ê(¹«Ê½(3.23))¶Ô±È¿ÉÒÔ·¢ÏÖ£¬µ±¦Á=¦Ë/¦Ò2Ê±£¬¶þÕßµÄ½âÊÇµÈ¼ÛµÄ¡£Òò´Ë£¬Í¨¹ý¸øÄ£ÐÍ²ÎÊýÔö¼ÓÏÈÑé²¢½øÐÐ×î´óºóÑé¹À¼ÆµÄ·½·¨Í¬Ñù¿ÉÒÔ´ïµ½¼õÇá¹ýÄâºÏµÄÐ§¹û¡£
3.2±´Ò¶Ë¹ÏßÐÔ»Ø¹é
3.1½Ú½éÉÜµÄÊ¹ÓÃ×î´óËÆÈ»¹À¼ÆÓë×î´óºóÑé¹À¼ÆµÄÏßÐÔ»Ø¹éÄ£ÐÍ£¬Ä£ÐÍ²ÎÊýµÄÖµÍêÈ«Í¨¹ýÊý¾Ý¼¯ÑµÁ·µÃ³ö¡£Ò»µ©µÃµ½¦Â^£¬¿ÉÒÔ¸ù¾ÝÄ£ÐÍ¹À¼ÆÈÎÒâÐÂÊý¾Ýµãxª³µÄÊä³öÖµ: y^=¦¼(xª³) ¦Â^¡£ËüÃÇµÃµ½µÄÊÇ²ÎÊýµÄµã¹À¼Æ£¬¼´¸ø¶¨Êý¾ÝÊ±¿ÉÄÜÐÔ×î´óµÄ¹À¼Æ¡£µ«ÊÇ£¬µ±Êý¾Ý¼¯±È½ÏÐ¡»ò²»È·¶¨ÐÔ½Ï´óÊ±£¬½«¹À¼Æ±íÊ¾ÎªÒ»¸ö¿ÉÄÜÖµµÄ·Ö²¼¸ü¼ÓºÏÀí¡£ÕâÑùµÃµ½µÄÊä³öÔ¤²âÖµ½«ÊÇÒ»¸ö·Ö²¼¡£ÏÂÃæ½éÉÜ¿ÉÒÔ¸ø³ö²ÎÊýÓëÔ¤²âÖµ·Ö²¼µÄ±´Ò¶Ë¹ÏßÐÔ»Ø¹é¡£
±´Ò¶Ë¹ÏßÐÔ»Ø¹é£¨Bayesian linear regression£©½«±´Ò¶Ë¹¿ò¼ÜÓ¦ÓÃµ½ÏßÐÔ»Ø¹éÖÐ£¬»Ø¹éÏµÊý¦Â±»¼ÙÉèÎªÓÐÒ»ÌØ¶¨ÏÈÑé·Ö²¼µÄËæ»ú±äÁ¿£¬´ËÏÈÑé·Ö²¼¿ÉÒÔÓ°Ïì»Ø¹éÏµÊýµÄ½â¡£ÁíÍâ£¬±´Ò¶Ë¹²ÎÊý¹À¼Æ²»ÊÇ¸ø³ö»Ø¹éÏµÊýµÄ×î¼Ñµ¥µã¹À¼Æ£¬¶øÊÇ¸ø³öÍêÕûµÄºóÑé·Ö²¼£¬ÕâÖÖ·½Ê½ÃèÊöÁË¹À¼ÆÁ¿µÄ²»È·¶¨ÐÔ¡£
¿¼ÂÇÒ»¸ö±ê×¼µÄÏßÐÔ»Ø¹éÎÊÌâ£¬¶ÔÓÚi=1,2,¡­,N, ¼ÙÉèÔÚ¸ø¶¨×Ô±äÁ¿xiµÄÇé¿öÏÂ,yi²úÉúµÄ¹«Ê½Îªyi=x i¦Â+¦ºi(3.29)ÆäÖÐ¦ÂÊÇD¡Á1Î¬ÏòÁ¿£¬¦ºiÊÇ¶ÀÁ¢Í¬·Ö²¼µÄËæ»ú±äÁ¿£¬²¢ÇÒ¦ºi¡« (0,¦Ò2)¡£¶¨ÒåX=£Ûx1,x2,¡­,xN£Ý £¬y=£Ûy1,y2,¡­,yN£Ý £¬¿ÉÒÔµÃµ½Òò±äÁ¿yµÄËÆÈ»º¯ÊýÎª
p(y|X,¦Â,¦Ò2)¡Ø(¦Ò2)-N2exp-12¦Ò2(y-X¦Â) (y-X¦Â)(3.30)
¼´y¡« (X¦Â,¦Ò2I)¡£
ÔÚ±´Ò¶Ë¹·½·¨ÖÐ£¬²ÎÊýµÄÏÈÑé¸ÅÂÊ·Ö²¼ÎªÄ£ÐÍÌá¹©ÁË¶îÍâÐÅÏ¢¡£ÏÈÑé¿ÉÒÔ¸ù¾ÝÁìÓòÖªÊ¶ºÍÒÑÖªÐÅÏ¢²ÉÈ¡²»Í¬µÄº¯ÊýÐÎÊ½¡£È·¶¨ËÆÈ»º¯Êýºó£¬¶ÔÓÚÒ»¸öÈÎÒâµÄÏÈÑé·Ö²¼£¬ºóÑé·Ö²¼²»Ò»¶¨´æÔÚ½âÎöÐÎÊ½¡£ÕâÀïÌÖÂÛ¿ÉÒÔÊ¹ºóÑé·Ö²¼±»½âÎöµØÍÆµ¼³öÀ´µÄÇé¿ö£¬³£ÓÃµÄ·½·¨ÊÇÉèÖÃËÆÈ»º¯ÊýµÄ¹²éîÏÈÑé¡£ÏÂÃæ¸ø³ö¹²éîÏÈÑéµÄ¶¨Òå¡£
Èç¹ûÏÈÑé·Ö²¼ºÍËÆÈ»º¯Êý¿ÉÒÔÊ¹ºóÑé·Ö²¼ºÍÏÈÑé·Ö²¼¾ßÓÐÏàÍ¬µÄÐÎÊ½£¬¾Í³ÆÏÈÑé·Ö²¼ÓëËÆÈ»º¯ÊýÊÇ¹²éîµÄ£¬¸ÃÏÈÑé³ÆÎª¸ÃËÆÈ»º¯ÊýµÄ¹²éîÏÈÑé¡£¹²éîµÄºÃ´¦ÊÇÈÃºóÑé·Ö²¼ÓëÏÈÑé·Ö²¼¾ßÓÐÏàÍ¬µÄÐÎÊ½£¬´Ó¶ø±ãÓÚÇó½â¡£
ÒÔÉÏÎÄ½éÉÜµÄÏßÐÔ»Ø¹éÎªÀý£¬¸ø¶¨Ä£ÐÍµÄËÆÈ»¼ÙÉè¹«Ê½(3.30)£¬ÐèÒª½øÐÐ±´Ò¶Ë¹¹À¼ÆµÄ²ÎÊý°üÀ¨¦ÂºÍ¦Ò2¡£ÎªÁËÊ¹µÃºóÑé·Ö²¼¿ÉÒÔµÃµ½ÓëÏÈÑé·Ö²¼ÏàÍ¬µÄÐÎÊ½£¬ÕâÀï¼ÙÉè²ÎÊý¦ÂºÍ¦Ò2µÄÁªºÏÏÈÑéÎªp(¦Â,¦Ò2)=p(¦Ò2)p(¦Â|¦Ò2)(3.31)ÆäÖÐp(¦Ò2)ÊÇÄæÙ¤Âí·Ö²¼Invª²Gamma(a0,b0)£¬¼´p(¦Ò2)¡Ø(¦Ò2)-a0-1exp-b0¦Ò2(3.32)¶øp(¦Â|¦Ò2)µÄÌõ¼þÏÈÑéÃÜ¶È·þ´ÓÕýÌ¬·Ö²¼ (¦Ì0,¦Ò2¦«-10)£¬¼´p(¦Â|¦Ò2)¡Øexp-12¦Ò2(¦Â-¦Ì0) ¦«0(¦Â-¦Ì0)(3.33)¸ø¶¨¦ÂºÍ¦Ò2µÄÏÈÑé¼ÙÉè£¬¸ù¾Ý±´Ò¶Ë¹¹«Ê½£¬¿ÉÒÔµÃµ½±´Ò¶Ë¹ÏßÐÔ»Ø¹é²ÎÊýµÄºóÑé·Ö²¼Îªp(¦Â,¦Ò2|y,X)=p(¦Â|¦Ò2,y,X)p(¦Ò2|y,X)¡Ø
p(y|X,¦Â,¦Ò2)p(¦Â|¦Ò2)p(¦Ò2)(3.34)½«¹«Ê½(3.30)¡¢(3.32)ºÍ(3.33)´úÈë(3.34)£¬¿ÉµÃp(¦Â|¦Ò2,y,X)ÊÇ¸ßË¹·Ö²¼ (¦Â|¦ÌN,¦Ò2¦«-1N)£¬ÒÔ¼°p(¦Ò2|y,X)ÊÇÄæÙ¤Âí·Ö²¼Invª²Gamma(¦Ò2|aN,bN)£¬Æä²ÎÊýµÄ¾ßÌå±íÊ¾Îª¦«N=(X X+¦«0)
¦ÌN=(¦«N)-1(X y+¦«0¦Ì0)
aN=a0+N2
bN=b0+12(y y+¦Ì 0¦«0¦Ì0-¦Ì N¦«N¦ÌN)(3.35)3.3Âß ¼­ »Ø ¹é
Ç°ÎÄ½éÉÜÁËÊ¹ÓÃÏßÐÔº¯ÊýÔ¤²âÁ¬ÐøÈ¡ÖµµÄ±äÁ¿£¬ÕâÀàÎÊÌâ³ÆÎª»Ø¹éÎÊÌâ¡£ºÜ¶àÊ±ºò£¬Ò²ÐèÒªÔ¤²âÀëÉ¢È¡Öµ±äÁ¿£¬ÀýÈçÅÐ¶ÏÒ»ÕÅÍ¼ÏñÊôÓÚÄÄ¸öÄ¿±êÀà±ð£¬Õâ±ä³ÉÁË·ÖÀàÎÊÌâ¡£Âß¼­»Ø¹éÔÚÏßÐÔ»Ø¹éµÄ»ù´¡ÉÏÊµÏÖÁË¶þÀàºÍ¶àÀà·ÖÀà¡£
Âß¼­»Ø¹é£¨logistic regression£©£Û3£ÝÄ£ÐÍÊÇÒ»ÖÖ³£ÓÃµÄ·ÖÀàËã·¨£¬Ò²¿ÉÒÔÈÏÎªÊÇÒ»ÖÖÒò±äÁ¿ÎªÀëÉ¢ÖµµÄ»Ø¹éÄ£ÐÍ¡£Âß¼­»Ø¹é¿ÉÒÔ´¦Àí¶þÀà·ÖÀàºÍ¶àÀà·ÖÀàÎÊÌâ¡£ÔÚ¶þÀàÂß¼­»Ø¹éÖÐ£¬Òò±äÁ¿Ö»ÓÐÁ½ÖÖÈ¡Öµ£¬ÀýÈç¡°0¡±»ò¡°1¡±¡£ÔÚ¶àÀàÂß¼­»Ø¹éÖÐ£¬Òò±äÁ¿ÓÐÁ½ÖÖÒÔÉÏµÄÀëÉ¢È¡Öµ¡£
±¾½ÚÊ×ÏÈ½éÉÜ¶þÀàÂß¼­»Ø¹é£¬È»ºó½éÉÜ¶àÀàÂß¼­»Ø¹é¡£
3.3.1¶þÀàÂß¼­»Ø¹é
¶þÀàÂß¼­»Ø¹éÄ£ÐÍÊ¹ÓÃÒ»¸ö»ò¶à¸ö×Ô±äÁ¿£¨ÌØÕ÷£©À´¹À¼ÆÒò±äÁ¿È¡ÖµµÄ¸ÅÂÊ¡£Êä³öÍ¨³£±»±àÂëÎª¡°0¡±»ò¡°1¡±¡£Ä£ÐÍ±¾Éí¸ù¾ÝÊäÈë½ö½ö½¨Ä£ÁËÊä³öµÄ¸ÅÂÊ£¬²¢²»Ö´ÐÐ·ÖÀà£¬¼´Ä£ÐÍ±¾Éí²¢²»ÊÇÒ»¸ö·ÖÀàÆ÷¡£µ±È»£¬Í¨³£¿ÉÒÔÊ¹ÓÃ´ËÄ£ÐÍ¹¹ÔìÒ»¸ö·ÖÀàÆ÷£¬ÀýÈç£¬Ñ¡ÔñÒ»¸öãÐÖµ£¬½«¸ÅÂÊ´óÓÚ´ËãÐÖµµÄÊäÈë·ÖÎªÒ»Àà£¬Ð¡ÓÚ´ËãÐÖµµÄ·ÖÎªÁíÒ»Àà¡£Âß¼­»Ø¹éÄ£ÐÍÊ¹ÓÃÂß¼­º¯Êý£¨logistic function£©£¬½«ÏßÐÔ»Ø¹éµÄ·µ»ØÖµ×ª»»ÎªÇø¼ä£Û0,1£ÝÄÚµÄÖµ£¬ÓÃÓÚ±íÊ¾×Ô±äÁ¿ÊôÓÚÄ³¸öÀà±ðµÄ¸ÅÂÊ£¬¼´Òò±äÁ¿È¡ÖµÎª¡°0¡±»ò¡°1¡±µÄ¸ÅÂÊ¡£
Âß¼­º¯ÊýÒ²³ÆÎªsigmoidº¯Êý£¬ÊäÈë¿ÉÒÔÊÇÈÎÒâÊµÊýx(x¡ÊR)£¬Êä³öµÄÖµÊôÓÚÇø¼ä£Û0,1£Ý¡£Âß¼­º¯Êý¦Ò(x)µÄ±í´ïÊ½Îª¦Ò(x)=exex+1=11+e-x(3.36)Æäº¯ÊýÇúÏßÈçÍ¼3ª²5ËùÊ¾¡£ËüÊÇÒ»¸öSÐÎÇúÏß£¬ÔÚºá×ø±êÈ¡ÖµÔ¶Àë0Ê±£¬×Ý×ø±êµÄÖµÇ÷½ü0»ò1¡£
Í¼3ª²5Âß¼­º¯ÊýÊ¾ÒâÍ¼
Âß¼­»Ø¹éÊ¹ÓÃÂß¼­º¯ÊýºÍ»Ø¹éÄ£ÐÍ¿ÉÒÔ½â¾ö¶þ·ÖÀàÎÊÌâ£¬ÆäÖÐÂß¼­º¯ÊýµÄ·µ»ØÖµÓÃÓÚ±íÊ¾¶þ·ÖÀàÎÊÌâÖÐµÄÕýÀà»ò¸ºÀàµÄ¸ÅÂÊ¡£¼ÙÉèfÊÇ×Ô±äÁ¿xµÄÒ»¸öÏßÐÔº¯Êý£¬¼´f=¦È x¡£Âß¼­»Ø¹é¼ÙÉèÑù±¾xÊôÓÚÕýÀàµÄ¸ÅÂÊÎªp(y=1|x)=h¦È(x)=¦Ò(¦È x)=11+exp(-¦È x)(3.37)ÄÇÃ´£¬xÊôÓÚ¸ºÀàµÄ¸ÅÂÊÎª
p(y=0|x)=1-p(y=1|x)=1-h¦È(x)=11+exp(¦È x)(3.38)
Âß¼­»Ø¹é¿ÉÒÔ´ÓÁ½¸ö½Ç¶È¶¨ÒåÄ¿±êº¯Êý£¬Ò»ÖÖÊÇ´Ó×î´óËÆÈ»µÄ½Ç¶È£¬Ò»ÖÖÊÇ´ÓÖ±½Ó¹¹½¨ËðÊ§µÄ½Ç¶È¡£Âß¼­»Ø¹éµÄÓÅ»¯Ä¿±êÊÇÑ§Ï°µÃµ½ºÏÊÊµÄ²ÎÊýÖµ£¬Ê¹µÃ¸ÅÂÊp(y=1|x)=h¦È(x)ÔÚµ±xÊôÓÚ¡°1¡±ÀàÊ±Öµ±È½Ï´ó£¬ÇÒp(y=0|x)=1-h¦È(x)ÔÚµ±xÊôÓÚ¡°0¡±ÀàÊ±Öµ±È½Ï´ó¡£
´Ó×î´óËÆÈ»µÄ½Ç¶È·ÖÎö£¬¼ÙÉèÃ¿Ò»¸öÑù±¾µÄÀà±êÇ©¶¼ÊÇ¶ÀÁ¢Í¬·Ö²¼µÄ²®Å¬Àû±äÁ¿£¬²®Å¬Àû±äÁ¿È¡ÖµÎª1ºÍ0µÄ¸ÅÂÊ·Ö±ðÎª¹«Ê½(3.37)ºÍ¹«Ê½(3.38)¡£¶ÔÓÚÓÐ±êÇ©µÄÑµÁ·¼¯{(xi,yi): i=1,2,¡­,N}£¬N¸ö¶ÀÁ¢Ñù±¾µÄÁªºÏËÆÈ»¿ÉÒÔÐ´³Ép(y|¦È)=¡ÇNi=1p(yi=1|xi)yi(1-p(yi=1|xi))(1-yi)(3.39)×î´ó»¯ËÆÈ»µÈ¼ÛÓÚ×îÐ¡»¯¸º¶ÔÊýËÆÈ»£¬Òò´Ë£¬×î´óËÆÈ»µÃµ½µÄËðÊ§º¯ÊýÎª-lnp(y|¦È)=-¡ÆNi=1£Ûyilnp(yi=1|xi)+
(1-yi)ln(1-p(yi=1|xi))£Ý(3.40)´Ó¹¹½¨ËðÊ§º¯ÊýµÄ½Ç¶È·ÖÎö£¬Âß¼­»Ø¹éÊ¹ÓÃÕæÊµ¸ÅÂÊ·Ö²¼ÓëÄ£ÐÍ¸ÅÂÊ·Ö²¼µÄ½»²æìØËðÊ§À´Ö±½Ó¶¨ÒåÑµÁ·¼¯{(xi,yi): i=1,2,¡­,N}µÄËðÊ§º¯Êý¡£¼ÙÉèÃ¿¸öÑù±¾µÄÕæÊµ·Ö²¼Îªq(yi|xi),ÄÇÃ´£¬q(yi=1|xi)=yi£¬ÇÒq(yi=0|xi)=1-yi¡£·Ö²¼q(yi|xi)ºÍp(yi|xi)µÄ½»²æìØÎªH(q(yi|xi),p(yi|xi))=-¡Æyiq(yi|xi)lnp(yi|xi)(3.41)Òò´Ë,Âß¼­»Ø¹éµÄ½»²æìØËðÊ§ÎªJ(¦È)=¡ÆNi=1H£Ûq(yi|xi),p(yi|xi)£Ý
=-¡ÆNi=1yilnh¦È(xi)+(1-yi)ln(1-h¦È(xi))(3.42)ÎÞÂÛ´Ó×î´óËÆÈ»½Ç¶È»¹ÊÇ×îÐ¡ËðÊ§º¯Êý½Ç¶È£¬¶þÕßµÃµ½µÄÄ¿±êËðÊ§ÊÇÒ»ÖÂµÄ¡£¿ÉÒÔÍ¨¹ý×îÐ¡»¯J(¦È)ÕÒµ½¼ÙÉèº¯Êýh¦È(x)ÖÐ¦ÈµÄ×îÓÅÖµ£¬´Ó¶øÑ§µÃ·ÖÀàÆ÷¡£¹ØÓÚ¸ÃÄ¿±êµÄÓÅ»¯µÃ²»µ½±ÕÊ½½â£Û4£Ý£¬Òò´Ë³£ÓÃ»ùÓÚÌÝ¶ÈµÄµü´úÓÅ»¯·½·¨£¬ÀýÈçÒ»½×ÌÝ¶ÈÏÂ½µ»ò»ùÓÚ¶þ½×ÌÝ¶ÈµÄÅ£¶Ù·¨µÈ¡£Ê¹ÓÃÌÝ¶ÈÏÂ½µµÈ·½·¨ÓÅ»¯¦È£¬ÐèÒª¼ÆËãJ(¦È)¹ØÓÚ¦ÈµÄÌÝ¶È£¬¼ÆËã¹«Ê½Îª  ¦ÈJ(¦È)=dJ(¦È)d¦È =¡ÆNi=1£Û(¦Ò(¦È xi)-yi)x i£Ýd¦Èd¦È 
=¡Æixi£Ûh¦È(xi)-yi£Ý(3.43)ÆäÖÐ£¬ÌÝ¶ÈµÄÔËËã¹ý³ÌÀûÓÃÁËsigmoidº¯ÊýµÄµ¼ÊýÐÔÖÊ: d¦Ò(x)=¦Ò(x)(1-¦Ò(x))dx¡£Ê¹ÓÃÅ£¶Ù·¨½øÐÐÓÅ»¯,Ôò»¹ÐèÒª¼ÆËãHessian¾ØÕó¡£
µÃµ½ºÏÊÊµÄ²ÎÊýÖµºó£¬¶ÔÓÚÐÂµÄ²âÊÔÑù±¾xª³£¬Èç¹ûp(y=1|xª³)>p(y=0|xª³)£¬ÄÇÃ´½«´ËÑù±¾±ê¼ÇÎª¡°1¡±Àà£¬·ñÔò±ê¼ÇÎª¡°0¡±Àà¡£ÏàÓ¦µÄ¾ö²ßº¯ÊýÎª: Èç¹ûp(y=1|xª³)>0.5£¬ÄÇÃ´yª³=1¡£Í¨³£Çé¿öÏÂ,Ñ¡Ôñ0.5×÷ÎªãÐÖµ½øÐÐ¾ö²ß£¬ÔÚºÜ¶àÊµ¼ÊÓ¦ÓÃÖÐ£¬Ò²¿ÉÒÔ¸ù¾ÝÌØ¶¨µÄÇé¿öÑ¡Ôñ²»Í¬µÄãÐÖµ¡£ÀýÈç£¬Èç¹û¶ÔÕýÀýµÄÅÐ±ð²é×¼ÂÊÒªÇó¸ß£¬¿ÉÒÔÑ¡Ôñ´óÓÚ0.5µÄÖµ×÷ÎªãÐÖµ£»Èç¹û¶ÔÕýÀýµÄ²éÈ«ÂÊÒªÇó¸ß£¬¿ÉÒÔÑ¡ÔñÐ¡ÓÚ0.5µÄÖµ×÷ÎªãÐÖµ¡£
3.3.2¶àÀàÂß¼­»Ø¹é
¶àÀàÂß¼­»Ø¹é£¨multinomial logistic regression£©µÄ»ù±¾Ô­ÀíÓë¶þÀàÂß¼­»Ø¹éÀàËÆ£¬²î±ðÔÚÓÚ¶àÀàÂß¼­»Ø¹éÖÐÒò±äÁ¿yiµÄÈ¡Öµ¿ÉÒÔ´óÓÚÁ½¸ö£¬Ò»¸öCÀàÂß¼­»Ø¹éµÄÒò±äÁ¿¿ÉÒÔÔÚ1¡«CÈ¡ÈÎÒâÒ»¸öÕûÊý¡£¶àÀàÂß¼­»Ø¹éÊ¹ÓÃsoftmaxÊµÏÖ´ÓÊµÊýµ½Àà±ð¸ÅÂÊµÄ×ª»»¡£
¶¨ÒåÀà±ð±êÇ©Îªc¡Ê{1,2,¡­,C}£¬Ã¿Ò»¸öÀà±ð¶ÔÓ¦ÓÚÒ»¸ö»Ø¹éº¯Êý,¼´fc(xi)=¦È cxi(3.44)ÆäÖÐ¦ÈcÊÇÓëÀà±ðc¶ÔÓ¦µÄ»Ø¹éÏµÊý£¬xiÊÇµÚi¸öÑù±¾ÏòÁ¿¡£¾­¹ýsoftmaxº¯Êý×ª»»ºóµÃµ½Ñù±¾ÊôÓÚÄ³Ò»Àà±ðµÄ¸ÅÂÊÎªp(yi=c)=exp(¦È cxi)¡ÆCk=1exp(¦È kxi)(3.45)¸ù¾Ý¹«Ê½£¨3.45£©£¬Ñù±¾±»·ÖÎª¸ÅÂÊ×î´óµÄÄÇÒ»Àà¡£Ã¿¸öÏòÁ¿¦ÈcÖÐÎ´ÖªµÄ²ÎÊý¿ÉÒÔÍ¨¹ý×î´óËÆÈ»»ò×îÐ¡»¯½»²æìØ½øÐÐÓÅ»¯¡£¶àÀàÂß¼­»Ø¹éµÄËÆÈ»º¯ÊýÎªp(y|¦È1,¦È2,¡­,¦ÈC)=¡ÇNi=1¡ÇCc=1p(yi=c|xi)I(yi=c)(3.46)ÆäÖÐ£¬I(yi=c)½öµ±yi=cÊ±º¯ÊýÖµÎª1£¬ÆäÓàÎª0¡£¶ÔÓ¦µÄ¸º¶ÔÊýËÆÈ»£¬Ò²¾ÍÊÇ½»²æìØËðÊ§Îª
-lnp(y|¦È1,¦È2,¡­,¦ÈK)=-¡ÆNi=1¡ÆCc=1I(yi=c)lnp(yi=c|xi)(3.47)
Óë¶þÀàÂß¼­»Ø¹éÀàËÆ£¬ÓÉÓÚÓÅ»¯Ä¿±êÖÐ°üº¬·ÇÏßÐÔº¯Êý£¬Í¨³£µÃ²»µ½±ÕÊ½½â£¬Òò´Ë³£ÓÃµÄ·½·¨ÊÇ»ùÓÚÌÝ¶ÈµÄµü´úÓÅ»¯¡£´ËÍâ£¬ÎÞÂÛÊÇ¶þÀàÂß¼­»Ø¹é»¹ÊÇ¶àÀàÂß¼­»Ø¹é£¬Ê¹ÓÃ×î´óºóÑé¹À¼Æ»ò×îÐ¡»¯´ø³Í·£ÏîµÄ½»²æìØËðÊ§¿ÉÒÔ·ÀÖ¹Ä£ÐÍ¹ýÄâºÏ¡£
3.4±´Ò¶Ë¹Âß¼­»Ø¹é
±¾½ÚÒÔÁ½·ÖÀàÎªÀý½éÉÜ±´Ò¶Ë¹Âß¼­»Ø¹é£¨Bayesian logistic regression£©¡£Âß¼­»Ø¹éÊÇÒ»ÖÖÅÐ±ðÊ½¸ÅÂÊÏßÐÔ·ÖÀàÆ÷p(y=1|x,¦È)=¦Ò(¦È x)¡£±´Ò¶Ë¹Âß¼­»Ø¹éÍ¨¹ý±´Ò¶Ë¹²ÎÊý¹À¼ÆÑ§Ï°²ÎÊýµÄºóÑé·Ö²¼£¬²¢ÇÒÀûÓÃ¸Ã·Ö²¼½øÐÐÔ¤²â¡£
ÒÑÖª¹Û²âÊý¾ÝX=£Ûx1,x2,¡­,xN£Ý £¬y=£Ûy1,y2,¡­,yN£Ý £¬Âß¼­»Ø¹éÊ¹ÓÃµÄËÆÈ»·Ö²¼µ¼ÖÂºóÑé·Ö²¼p(¦È|X,y)ÄÑÒÔÓÐ½âÎö±í´ï£¬Òò´ËÍ¨³£Ê¹ÓÃÆäËûµäÐÍ·Ö²¼q(¦È)À´½üËÆºóÑé·Ö²¼¡£Ô¤²âÊ±£¬¼´±ãÊ¹ÓÃÁË½üËÆ·Ö²¼£¬¶ÔÐÂÑù±¾xª³µÄÔ¤²â·Ö²¼p(yª³=1|xª³)¡Ö¡Ò¦Ò(¦È xª³)q(¦È)d¦ÈµÄ¹À¼ÆÈÔÈ»ÊÇÄÑ½âµÄ¡£Òò´Ë£¬±´Ò¶Ë¹Âß¼­»Ø¹éÍ¨³£Ê¹ÓÃ½üËÆÇó½â·½·¨¡£
Ò»·½Ãæ£¬ºóÑé·Ö²¼p(¦È|X,y)µÈÓÚÏÈÑé³ËÒÔËÆÈ»,ÔÙ½øÐÐ¹éÒ»»¯¡£ÆäÖÐÏÈÑéÍ¨³£¼ÙÉèÎªp(¦È)= (¦È|m0,S0)(3.48)Âß¼­»Ø¹éµÄËÆÈ»Îªp(y|X,¦È)=¡ÇNi=1p(yi=1|xi)yi(1-p(yi=1|xi))1-yi(3.49)¶ÔÂß¼­»Ø¹éÖÐµÄºóÑé·Ö²¼½øÐÐ¾«È·Çó½â·Ç³£À§ÄÑ£¬ÕâÊ±¿ÉÒÔÍ¨¹ýÊ¹ÓÃÀ­ÆÕÀ­Ë¹½üËÆµÃµ½½üËÆµÄ¸ßË¹ºóÑé·Ö²¼q(¦È)¡£
ÁíÒ»·½Ãæ£¬Ô¤²â·Ö²¼p(yª³=1|xª³)¡Ö¡Ò¦Ò(¦È xª³)q(¦È)d¦È ÐèÒª¹ØÓÚsigmoidº¯ÊýºÍ¸ßË¹·Ö²¼µÄ³Ë»ýÇó»ý·Ö£¬Æä¾«È·Çó½âÒ²ÊÇÊ®·ÖÀ§ÄÑµÄ£¬¿ÉÍ¨¹ý½«sigmoidº¯ÊýÓÃÄæprobitº¯Êý½üËÆµÃµ½Æä½üËÆ½â£Û4£Ý¡£ÏÂÃæ¶ÔÕâÁ½·½ÃæµÄ½üËÆ½øÐÐÏêÏ¸½éÉÜ¡£
£¨1£© À­ÆÕÀ­Ë¹½üËÆ¡£
¶ÔºóÑé·Ö²¼µÄÀ­ÆÕÀ­Ë¹½üËÆÊÇÍ¨¹ýÊýÖµÓÅ»¯Ëã·¨µÃµ½Ò»¸öÒÔ¦È0Îª¾ùÖµµÄ¸ßË¹·Ö²¼q(¦È)£¬×÷ÎªÕæÊµºóÑéµÄ½üËÆ·Ö²¼Îªq(¦È)=1(2¦Ð)D/2|SN|1/2exp-12(¦È-¦È0) S-1N(¦È-¦È0)= (¦È|¦È0,SN)(3.50)ÆäÖÐ£¬¾ùÖµ¦È0ÊÇÕæÊµºóÑé·Ö²¼µÄ×î´óÖµ¶ÔÓ¦µÄ±äÁ¿Öµ£¬Ð­·½²î¾ØÕóÊÇ¸º¶ÔÊýÕæÊµºóÑé·Ö²¼-lnp(¦È|X,y)µÄHessian¾ØÕó£¨¸½Â¼C£©ÔÚ¦È=¦È0´¦µÄÄæ£¬¼´SN=-  lnp(¦È|X,y)|¦È=¦È0-1¡£ÏÂÃæÀ´¿´¾ùÖµ¦È0ºÍÐ­·½²î¾ØÕóSNµÄ¾ßÌå¼ÆËã¹ý³Ì¡£
ÒÑÖª²ÎÊý·þ´Ó¸ßË¹ÏÈÑép(¦È)= (¦È|m0,S0)£¬ÆäÖÐm0ºÍS0ÊÇ³¬²ÎÊý¡£ºóÑé·Ö²¼p(¦È|X,y)¡Øp(¦È)p(y|X,¦È)¡£½«ÏÈÑé¸ÅÂÊ£¨¹«Ê½(3.48)£©ºÍÂß¼­»Ø¹éµÄËÆÈ»º¯Êý£¨¹«Ê½(3.49)£©´úÈë±´Ò¶Ë¹¹«Ê½¿ÉµÃlnp(¦È|X,y)=-12(¦È-m0) S-10(¦È-m0)+¡ÆNi=1£Ûyilnp(yi=1|xi,¦È)+
(1-yi)ln(1-p(yi=1|xi,¦È))£Ý+const(3.51)×î´ó»¯¸Ã¶ÔÊýºóÑé·Ö²¼lnp(¦È|X,y),¿ÉÒÔµÃµ½²ÎÊýµÄ×î´óºóÑé¹À¼Æ¦Èmap£¬×÷Îª½üËÆ·Ö²¼q(¦È)µÄ¾ùÖµ¡£-lnp(¦È|X,y)µÄHessian¾ØÕó¼ÆËãÎªH=-  lnp(¦È|X,y)=d2lnp(¦È|X,y)d¦Èd¦È 
=dTr£Û(¦È-m0) S-10d¦È£Ý-d¡ÆNi=1(yi-¦Ò(¦È xi))x id¦Èd¦Èd¦È 
=Tr£ÛS-10d¦Èd¦È £Ý+Tr¡ÆNi=1¦Ò(¦È xi)(1-¦Ò(¦È xi))xix id¦Èd¦È d¦Èd¦È 
=S-10+¡ÆNi=1p(yi=1|xi,¦È)(1-p(yi=1|xi,¦È))xix i(3.52)ÆäÖÐÔËËã¹ý³ÌÀûÓÃÁËsigmoidº¯ÊýµÄµ¼ÊýÐÔÖÊ: d¦Ò(x)=¦Ò(x)1-¦Ò(x)dx¡£µÃµ½HÖ®ºó£¬¸ù¾ÝSN=(H|¦È=¦Èmap)-1µÃµ½½üËÆ·Ö²¼µÄÐ­·½²î¾ØÕóSN£¬¿ÉÒÔµÃµ½ºóÑé·Ö²¼µÄ¸ßË¹½üËÆq(¦È)= (¦È|¦Èmap,SN)¡£
(2) Äæprobitº¯Êý½üËÆ¡£
µÃµ½½üËÆºóÑé·Ö²¼ºó£¬¶ÔÓÚ¸ø¶¨µÄÐÂÌØÕ÷ÏòÁ¿xª³£¬ÆäÊôÓÚÀà±ð¡°1¡±µÄÔ¤²â·Ö²¼¿ÉÒÔÍ¨¹ýËÆÈ»¹ØÓÚºóÑép(¦È|X,y)µÄ»ý·ÖµÃµ½£¬¼´p(yª³=1|xª³)=¡Òp(yª³=1,¦È|xª³)d¦È
=¡Òp(yª³=1|xª³,¦È)p(¦È|X,y)d¦È
¡Ö¡Ò¦Ò(¦È xª³)q(¦È)d¦È(3.53)ÊôÓÚÀà±ð¡°0¡±µÄ¸ÅÂÊÎªp(yª³=0|xª³)=1-p(yª³=1|xª³)(3.54)ÏÂÃæ¶Ô¹«Ê½(3.53)×÷½øÒ»²½»¯¼ò£¬ÓÉÓÚº¯Êý¦Ò(¦È xª³)½öÍ¨¹ý¦È xª³µÄÖµÒÀÀµÓÚ¦È£¬Òò´Ë¶¨ÒåÐÂµÄ±äÁ¿a=¦È xª³£¬²¢ÒýÈëDirac deltaº¯Êý¦Ä(¡¤)£¬¿ÉÒÔµÃµ½¦Ò(¦È xª³)¡Ö¡Ò¦Ä(a-¦È xª³)¦Ò(a)da¡£Òò´Ë£¬¹«Ê½(3.53)µÄ½á¹û¿ÉÒÔ±íÊ¾Îª¡Ò¦Ò(¦È xª³)q(¦È)d¦È=¡Ò¡Ò¦Ä(a-¦È xª³)¦Ò(a)daq(¦È)d¦È
=¡Ò¦Ò(a)¡Ò¦Ä(a-¦È xª³)q(¦È)d¦Èda(3.55)ÆäÖÐ£¬¡Ò¦Ä(a-¦È xª³)q(¦È)d¦ÈÊÇ¹ØÓÚaµÄº¯Êý£¬²¢ÇÒ¿ÉÑéÖ¤ÎªÊÇÒ»¸ö¸ßË¹¸ÅÂÊ·Ö²¼£¬¼ÇÎªp(a)= (a|¦Ìa,¦Ò2a)£¬ÆäÖÐ¾ùÖµÓë·½²î·Ö±ðÎª¦Ìa= £Ûa£Ý=¡Òp(a)ada=¡Òq(¦È)¦È xª³d¦È=¦È mapxª³(3.56)
¦Ò2a=var£Ûa£Ý=¡Òp(a)a2da- £Ûa£Ý2=¡Òq(¦È)(¦È xª³)2d¦È-(¦È mapxª³)2
=x ª³SNxª³(3.57)Ô¤²â·Ö²¼¿ÉÒÔ±íÊ¾Îªp(y=1|xª³)=¡Ò¦Ò(a)p(a)da=¡Ò¦Ò(a) (a|¦Ìa,¦Ò2a)da(3.58)×¢Òâ,ÔÚ¹«Ê½(3.58)µÄ»ý·ÖÖÐ£¬¹ØÓÚsigmoidºÍGaussian³Ë»ýµÄ»ý·ÖÊÇ²»¿É½âµÄ£¬Í¨³£Ê¹ÓÃÄæprobitº¯ÊýÀ´Ìæ´úsigmoidº¯Êý¡£¶¨Òå±ê×¼¸ßË¹·Ö²¼µÄÀÛ»ý·Ö²¼º¯ÊýÎª¦µ(a)=¡Òa-¡Þ (w|0,1)dw(3.59)¸Ãº¯ÊýÒ²³ÆÎªÄæprobitº¯Êý¡£ÓÉÓÚÀÛ»ý·Ö²¼º¯ÊýµÄÖµÓòÊÇ£¨0,1£©£¬Òò´Ë¿ÉÓÃÄæprobitº¯ÊýÀ´½üËÆsigmoidº¯Êý¡£ÎªÊ¹¶þÕß¾¡¿ÉÄÜÒ»ÖÂ£¬Ðè¶ÔÄæprobitº¯ÊýµÄ×Ô±äÁ¿½øÐÐ·ÅËõ£¬¼´Ê¹ÓÃ¦µ(¦Ëa)À´½üËÆ¦Ò(a)£¬²¢ÇÒ¦ËÍ¨³£ÉèÖÃÎª¦Ë=¦Ð/8£¬´ËÊ±Á½ÕßÔÚÔ­µã¾ßÓÐÏàÍ¬µÄÐ±ÂÊ£¨¼´µ¼ÊýÏàÍ¬£©£Û4£Ý¡£¸ßË¹·Ö²¼ºÍÄæprobitº¯ÊýÏà³ËºóµÄ»ý·Ö»¹ÊÇÒ»¸öÄæprobitº¯Êý£¬¼´¡Ò¦µ(¦Ëa) (a|¦Ìa,¦Ò2a)da=¦µ¦Ìa(¦Ë-2+¦Ò2a)1/2(3.60)½«¹«Ê½£¨3.60)Ó¦ÓÃµ½¹«Ê½(3.58)ÖÐ,¿ÉÒÔ»ñµÃ×îÖÕµÄÔ¤²â¸ÅÂÊÎª