ÎªÁËÂú×ã´óÊý¾Ý´¦ÀíµÄÐèÒª,Hadoop´óÊý¾ÝÈí¼þÆ½Ì¨Ó¦ÔË¶øÉú¡£Hadoop×÷Îªµ±ÏÂ×î
¾ßÓÐ´ú±íÐÔµÄ´óÊý¾Ý·Ö²¼Ê½´æ´¢ºÍ·Ö²¼Ê½²¢ÐÐ¼ÆËãµÄÈí¼þ¿ò¼Ü,ÔÚÒµ½çÒÑ¾­µÃµ½¹ã·ºµÄÓ¦
ÓÃ¡£ÔÚHadoop»ù´¡ÉÏ,ºÜ¶àÆóÒµÍÆ³öÁË¸÷×ÔµÄ´óÊý¾ÝÉÌÒµ½â¾ö·½°¸¡£Òò´Ë,HadoopÒÑ¾­
³ÉÎªÆóÒµ´óÊý¾ÝÓ¦ÓÃµÄÊÂÊµ±ê×¼¡£±¾ÕÂÊ×ÏÈ½éÉÜ´óÊý¾Ý³£ÓÃµÄ¼¸ÖÖ¼Ü¹¹ºÍ½â¾ö·½°¸,È»ºó
½éÉÜHadoopµÄÉúÌ¬ÏµÍ³¼°Æä¸÷¸ö×é¼þ,×îºóÏµÍ³½éÉÜHadoopµÄ°²×°ºÍÅäÖÃ¡£

3.´óÊý¾Ý¼Ü¹¹
1 

1.´óÊý¾Ý¼Ü¹¹¸ÅÊö
3.1 

´óÊý¾Ý¿ÉÒÔÍ¨¹ýÐí¶à·½Ê½À´´æ´¢¡¢»ñÈ¡¡¢´¦ÀíºÍ·ÖÎö¡£´óÊý¾ÝµÄÊý¾ÝÀ´Ô´Ò²ÓÐ²»Í¬µÄÌØ

Õ÷,°üÀ¨Êý¾ÝµÄÀàÐÍ¡¢ÆµÂÊ¡¢Á¿¡¢ËÙ¶ÈÒÔ¼°ÕæÊµÐÔµÈ¡£ÔÚ¶Ô´óÊý¾Ý½øÐÐ´¦ÀíºÍ´æ´¢Ê±,»áÉæ¼°

¸ü¶àÎ¬¶ÈµÄ¿¼ÂÇ,ÈçÖÎÀí¡¢°²È«ÐÔºÍ²ßÂÔµÈ¡£Ñ¡ÔñÒ»ÖÖ´óÊý¾Ý¼Ü¹¹²¢¹¹½¨ºÏÊÊµÄ´óÊý¾Ý½â¾ö

·½°¸¼«¾ßÌôÕ½,ÒòÎªÐèÒª¿¼ÂÇ·Ç³£¶àµÄÒòËØ¡£

±¾Êé½²µÄ´óÊý¾Ý¼Ü¹¹Ö÷Òª»ùÓÚHadoopÌåÏµµÄ¼Ü¹¹¡£µ±Ç°,Hadoop¼Ü¹¹¼¼ÊõµÄ³ÉÊìºÍ
ÉúÌ¬µÄÍê±¸Ê¹Æä³ÉÎª´óÊý¾ÝÆ½Ì¨¼Ü¹¹µÄ±ê×¼ÅäÖÃ¡£Í¨¹ý²»Í¬×é¼þµÄ´î½¨,¹¹½¨´Óµ×²ãÊý¾Ý
Ô´¡¢Êý¾Ý½ÓÈë¡¢Êý¾ÝÔ¤´¦Àí¡¢·Ö²¼Ê½Êý¾Ý´æ´¢¡¢·Ö²¼Ê½×ÊÔ´¹ÜÀí¡¢·Ö²¼Ê½¼ÆËã¡¢Êý¾Ý½¨Ä£ºÍ¹²Ïí
·Ö·¢µÈÒ»Ì×ÍêÉÆµÄ´óÊý¾Ý´¦Àí¼Ü¹¹¡£

½üÄê,ÒÔHadoopÌåÏµÎªÊ×µÄ´óÊý¾Ý·ÖÎöÆ½Ì¨Öð½¥±íÏÖ³öÓÅÒìÐÔ,Î§ÈÆHadoopÌåÏµµÄ
ÉúÌ¬È¦Ò²²»¶Ï±ä´ó,ºÜ¶àÆóÒµÍÆ³öÁË¸÷ÖÖ´óÊý¾ÝµÄ½â¾ö·½°¸,´Ó¸ù±¾ÉÏ½â¾öÁË´«Í³Êý¾Ý²Ö¿â
µÄÆ¿¾±ÎÊÌâ¡£»ùÓÚ´óÊý¾Ý¼Ü¹¹µÄÊý¾ÝÆ½Ì¨¿ÉÒÔÖØµã´ÓÒÔÏÂ3·½ÃæÈ¥½â¾ö´«Í³Êý¾Ý²Ö¿â×öÊý
¾Ý·ÖÎöÃæÁÙµÄÆ¿¾±ÎÊÌâ¡£

(1)·Ö²¼Ê½¼ÆËã¡£·Ö²¼Ê½¼ÆËãµÄË¼Â·ÊÇÈÃ¶à¸ö½Úµã²¢ÐÐ¼ÆËã,²¢ÇÒÇ¿µ÷Êý¾Ý±¾µØÐÔ,¾¡
¿ÉÄÜ¼õÉÙÊý¾ÝµÄ´«Êä,ÀýÈçSparkÍ¨¹ýRDD µÄÐÎÊ½À´±íÏÖÊý¾ÝµÄ¼ÆËãÂß¼­,¿ÉÒÔÔÚRDD ÉÏ
×öÒ»ÏµÁÐµÄÓÅ»¯,À´¼õÉÙÊý¾ÝµÄ´«Êä¡£
(2)·Ö²¼Ê½´æ´¢¡£ËùÎ½·Ö²¼Ê½´æ´¢,Ö¸µÄÊÇ½«Ò»¸ö´óÎÄ¼þ²ð³É
N 
·Ý,Ã¿Ò»·Ý¶ÀÁ¢µØ·Å
µ½Ò»Ì¨»úÆ÷ÉÏ,ÕâÀï¾ÍÉæ¼°ÎÄ¼þµÄ¸±±¾¡¢·ÖÆ¬,ÒÔ¼°¹ÜÀíµÈ²Ù×÷,º­¸ÇÁË·Ö²¼Ê½´æ´¢Ö÷ÒªµÄÓÅ
»¯¶¯×÷¡£
(3)¼ìË÷ºÍ´æ´¢µÄ½áºÏ¡£ÔÚÔçÆÚµÄ´óÊý¾Ý×é¼þÖÐ,´æ´¢ºÍ¼ÆËãÏà¶Ô½Ïµ¥Ò»,µ«ÊÇÄ¿Ç°¸ü
¶àµÄ·½ÏòÊÇÔÚ´æ´¢ÉÏ×ö¸ü¶àµÄ¹¤×÷,ÈÃ²éÑ¯ºÍ¼ÆËã¸ü¼Ó¸ßÐ§¡£¶ÔÓÚ¼ÆËãÀ´Ëµ,¸ßÐ§²»Íâºõ¾Í
ÊÇ²éÕÒÊý¾Ý¿ì,¶ÁÈ¡Êý¾Ý¿ì,ËùÒÔÄ¿Ç°µÄ´æ´¢²»½ö´æ´¢Êý¾ÝÄÚÈÝ,Í¬Ê±»áÌí¼ÓºÜ¶àÔªÐÅÏ¢,Àý

µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 41 

ÈçË÷ÒýÐÅÏ¢¡£

1.Êý¾ÝÀàÐÍ
3.2 

´ÓÊý¾ÝµÄ½á¹¹ÌØµãÀ´¿´,¿ÉÒÔ½«Êý¾Ý·ÖÎª½á¹¹»¯Êý¾Ý¡¢·Ç½á¹¹»¯Êý¾ÝÒÔ¼°°ë½á¹¹»¯
Êý¾ÝÈýÀà¡£ÔÚÏÖÓÐ´óÊý¾ÝµÄ´æ´¢ÖÐ,½öÓÐ15%×óÓÒµÄÊý¾ÝÎª½á¹¹»¯Êý¾Ý,Ê£ÏÂµÄÊý¾ÝÎª
°ë½á¹¹»¯ºÍ·Ç½á¹¹»¯Êý¾Ý¡£µ±½ñ,È«ÇòÃ¿Äê·Ç½á¹¹»¯ºÍ°ë½á¹¹»¯Êý¾ÝµÄÔö³¤ËÙ¶ÈÒÑ¾­Ô¶
Ô¶³¬¹ýÁË½á¹¹»¯Êý¾ÝµÄÔö³¤ËÙ¶È,Ëæ×Å´óÊý¾ÝµÄ·ÉËÙ·¢Õ¹,·Ç½á¹¹»¯Êý¾Ý±ÈÀý»¹»á²»¶Ï
Ìá¸ß¡£

1.½á¹¹»¯Êý¾Ý
¼òµ¥À´Ëµ,½á¹¹»¯Êý¾Ý¾ÍÊÇÐÐÊý¾Ý,¾ÍÊÇ±»´æ´¢ÔÚ¹ØÏµÊý¾Ý¿âÀïµÄÊý¾Ý,¿ÉÒÔÓÃ¶þÎ¬±í
½á¹¹À´Âß¼­±í´ïÊµÏÖµÄÊý¾Ý¡£ËùÓÐµÄ¹ØÏµÊý¾Ý¿â,ÈçOracle¡¢DB2 ¡¢MySQL ¡¢SQLServerÖÐ
µÄÊý¾Ý¶¼ÊÇ½á¹¹»¯Êý¾Ý¡£ÔÚÈÕ³£Éú»îÖÐ,³£¼ûµÄÓÐÆóÒµ¼Æ»®ÏµÍ³(EnterpriseResource 
Planning,ERP )¡¢²ÆÎñÏµÍ³¡¢Ò½ÔºÒ½ÁÆÐÅÏ¢ÏµÍ³(HospitalInformationSystem,HIS )¡¢½ÌÓýÒ»
¿¨Í¨ÒÔ¼°ÆäËûºËÐÄÊý¾Ý¿âµÈ¡£ÕâÐ©Ó¦ÓÃÐèÒª°üÀ¨¸ßËÙ´æ´¢Ó¦ÓÃÐèÇó¡¢Êý¾Ý±¸·ÝÐèÇó¡¢Êý¾Ý¹²
ÏíÐèÇóÒÔ¼°Êý¾ÝÈÝÔÖÐèÇó¡£

2.·Ç½á¹¹»¯Êý¾Ý
Ëæ×ÅWeb2.0Ê±´úµÄµ½À´,ÔÚÌÔ±¦¡¢Î¢ÐÅ¡¢TwiterµÈÆ½Ì¨ÉÏ,Ã¿Ê±Ã¿¿Ì¶¼ÔÚ²úÉú´óÁ¿µÄ
·Ç½á¹¹»¯Êý¾Ý,·Ç½á¹¹»¯Êý¾ÝµÄÊý¾ÝÁ¿ÓëÈÕ¾ãÔö,»ùÓÚ¶þÎ¬±íµÄ´«Í³Êý¾Ý¿âÒÑ¾­²»ÄÜÓÐÐ§´æ
´¢ÕâÐ©º£Á¿µÄ·Ç½á¹¹»¯Êý¾Ý,Òò´Ë,·Ç½á¹¹»¯Êý¾Ý¿âÓ¦ÔË¶øÉú¡£

·Ç½á¹¹»¯Êý¾Ý¿âÊÇÖ¸Æä×Ö¶Î³¤¶È¿É±ä,²¢ÇÒÃ¿¸ö×Ö¶ÎµÄ¼ÇÂ¼ÓÖ¿ÉÒÔÓÉ¿ÉÖØ¸´»ò²»¿ÉÖØ

¸´µÄ×Ó×Ö¶Î¹¹³ÉµÄÊý¾Ý¿â,ÓÃËü²»½ö¿ÉÒÔ´¦Àí½á¹¹»¯Êý¾Ý,ÈçÊý×Ö¡¢·ûºÅµÈÐÅÏ¢,¶øÇÒ¸üÊÊºÏ

´¦Àí·Ç½á¹¹»¯Êý¾Ý,ÈçÍ¼Ïñ¡¢Í¼Æ¬¡¢ÉùÒô¡¢ÎÄ±¾¡¢Ó°ÊÓ¡¢³¬Ã½ÌåµÈ¡£

²»ÄÜÓÃÊý¾Ý¿â¶þÎ¬Âß¼­±íÀ´±íÏÖµÄÊý¾Ý¼´³ÆÎª·Ç½á¹¹»¯Êý¾Ý,°üÀ¨ËùÓÐ¸ñÊ½µÄ°ì¹«ÎÄ

µµ¡¢ÎÄ±¾¡¢Í¼Æ¬¡¢±ê×¼Í¨ÓÃ±ê¼ÇÓïÑÔÏÂµÄ×Ó¼¯XML ¡¢HTML ¡¢¸÷Àà±¨±í¡¢Í¼ÏñºÍÒôÆµ/ÊÓÆµÐÅ

Ï¢µÈ¡£´ËÀàÊý¾Ý²»½ö²»ÈÝÒ×ÊÕ¼¯ºÍ¹ÜÀí,¶øÇÒ»¹²»ÄÜÖ±½Ó½øÐÐ²éÑ¯ºÍ·ÖÎö¡£

3.°ë½á¹¹»¯Êý¾Ý
ËùÎ½°ë½á¹¹»¯Êý¾Ý,¾ÍÊÇ½éÓÚÍêÈ«½á¹¹»¯Êý¾ÝºÍÍêÈ«ÎÞ½á¹¹µÄÊý¾ÝÖ®¼äµÄÊý¾Ý,Èç
HTMLÎÄµµ¡¢±¨±í¡¢XML ¡¢JSON ¡¢ÈÕÖ¾Êý¾ÝÎÄ¼þµÈ¾ÍÊôÓÚ°ë½á¹¹»¯Êý¾Ý¡£´ËÖÖÊý¾ÝÖÐµÄÃ¿
Ò»Ìõ¼ÇÂ¼¿ÉÄÜ»áÓÐÔ¤¶¨ÒåµÄ¹æ·¶,µ«ÊÇ°üº¬µÄÐÅÏ¢¿ÉÄÜ¾ßÓÐ²»Í¬µÄ×Ö¶ÎÊý¡¢×Ö¶ÎÃû,ÉõÖÁ°ü
º¬×Å²»Í¬µÄÇ¶Ì×¸ñÊ½,´ËÀàÊý¾ÝµÄÊä³öÐÎÊ½Ò»°ãÎª´¿ÎÄ±¾ÐÎÊ½,·½±ã¹ÜÀíºÍÎ¬»¤,ÈçÍ¼3-1 
µÄXMLÎÄµµ¡£ËüÒ»°ãÊÇ×ÔÃèÊöµÄ,Êý¾ÝµÄ½á¹¹ºÍÄÚÈÝ»ìÔÚÒ»Æð,Ã»ÓÐÃ÷ÏÔµÄÇø±ð¡£

4.¸÷ÀàÊý¾ÝµÄÇø±ð
¿ÉÒÔ´ÓÒÔÏÂ3·½ÃæÀ´Çø·Ö½á¹¹»¯Êý¾Ý¡¢°ë½á¹¹»¯Êý¾Ý¡¢·Ç½á¹¹»¯Êý¾ÝµÄ²»Í¬¡£

1)Êý¾ÝÄ£ÐÍ

¸÷ÀàÊý¾ÝµÄÊý¾ÝÄ£ÐÍºÍ»ù±¾ÌØÕ÷ÈçÏÂ¡£


42 
´óÊý¾Ý¸ÅÂÛ


Í¼3-
1 
XMLÎÄµµ

(1)½á¹¹»¯Êý¾Ý:¶þÎ¬±í(¹ØÏµÐÍ)¡£
(2)°ë½á¹¹»¯Êý¾Ý:Ê÷¡¢Í¼¡£
(3)·Ç½á¹¹»¯Êý¾Ý:ÎÞ
¡£
2)¹ØÏµÊý¾Ý¿âÏµÍ³(RMDBS)µÄÊý¾ÝÄ£
ÐÍ
RMDBSµÄÊý¾ÝÄ£ÐÍ°üÀ¨Íø×´Êý¾ÝÄ£ÐÍ¡¢²ã´ÎÊý¾ÝÄ£ÐÍºÍ¹ØÏµÄ£ÐÍ
¡£
3)²»Í¬ÀàÐÍÊý¾ÝµÄÐÎ³É¹ý
³Ì
(1)½á¹¹»¯Êý¾Ý:ÏÈÓÐ½á¹¹,ÔÙÓÐÊý¾Ý¡£
(2)°ë½á¹¹»¯Êý¾Ý:ÏÈÓÐÊý¾Ý,ÔÙÓÐ½á¹¹¡£
1.´óÊý¾Ý¼Ü¹¹¼°Êý¾Ý½â¾ö·½°¸
3.3 

1.¼¸ÖÖ³£ÓÃµÄ´óÊý¾Ý¼Ü¹¹
Ä¿Ç°,»ùÓÚHadoopÌåÏµµÄ´óÊý¾Ý¼Ü¹¹ÓÐÒÔÏÂ¼¸ÖÖ¡£
1)´«Í³´óÊý¾Ý¼Ü¹¹
Ö®ËùÒÔ½Ð´«Í³´óÊý¾Ý¼Ü¹¹,ÊÇÒòÎªÆä¶¨Î»ÊÇÎªÁË½â¾ö´«Í³ÉÌÒµÖÇÄÜ(Busines 

Inteligence,BI)µÄÎÊÌâ,¼òµ¥À´Ëµ,Êý¾Ý·ÖÎöµÄÒµÎñÃ»ÓÐ·¢ÉúÈÎºÎ±ä»¯,µ«ÊÇÒòÎªÊý¾ÝÁ¿¡¢ÐÔ
ÄÜµÈÎÊÌâµ¼ÖÂÏµÍ³ÎÞ·¨Õý³£Ê¹ÓÃ,ÐèÒª½øÐÐÉý¼¶¸ÄÔì,ÄÇÃ´´ËÀà¼Ü¹¹±ãÊÇÎªÁË½â¾öÕâ¸öÎÊ
Ìâ¡£ÆäÒÀÈ»±£ÁôÁË³éÈ¡¡¢×ª»»¡¢×°ÔØ(Extract-Transformation-Load,ETL)µÄ¶¯×÷,½«Êý¾Ý¾­
¹ýETL¶¯×÷½øÈëÊý¾Ý´æ´¢¡£

(1)ÓÅµã:¼òµ¥,Ò×¶®¡£¶ÔÓÚBIÏµÍ³À´Ëµ,»ù±¾Ë¼ÏëÃ»ÓÐ·¢Éú±ä»¯,±ä»¯µÄ½ö½öÊÇ¼¼Êõ
Ñ¡ÐÍ,ÓÃ´óÊý¾Ý¼Ü¹¹Ìæ»»BIµÄ×é¼þ¡£
(2)È±µã:¶ÔÓÚ´óÊý¾ÝÀ´Ëµ,Ã»ÓÐBIÏÂÈç´ËÍê±¸µÄCube¼Ü¹¹,ËäÈ»Ä¿Ç°ÓÐKylin,µ«ÊÇ
KylinµÄ¾ÖÏÞÐÔ·Ç³£Ã÷ÏÔ,Ô¶Ô¶Ã»ÓÐBIÏÂµÄCubeµÄÁé»î¶ÈºÍÎÈ¶¨¶È,Òò´Ë¶ÔÒµÎñÖ§³ÅµÄÁé
»î¶È²»¹»,ËùÒÔ¶ÔÓÚ´æÔÚ´óÁ¿±¨±í,»òÕß¸´ÔÓµÄ¡¢×êÈ¡µÄ³¡¾°,ÐèÒªÌ«¶àµÄÊÖ¹¤¶¨ÖÆ»¯,Í¬Ê±
¸Ã¼Ü¹¹ÒÀ¾ÉÒÔÅú´¦ÀíÎªÖ÷,È±·¦ÊµÊ±µÄÖ§³Å¡£
(3)ÊÊÓÃ³¡¾°:Êý¾Ý·ÖÎöÐèÇóÒÀ¾ÉÒÔBI³¡¾°ÎªÖ÷,µ«ÊÇÒòÎªÊý¾ÝÁ¿¡¢ÐÔÄÜµÈÎÊÌâÎÞ·¨Âú
×ãÈÕ³£Ê¹ÓÃ¡£
2)Á÷Ê½¼Ü¹¹
ÔÚ´«Í³´óÊý¾Ý¼Ü¹¹µÄ»ù´¡ÉÏ,Á÷Ê½¼Ü¹¹·Ç³£¼¤½ø,Ö±½ÓÈ¥µôÁËÅú´¦Àí,Êý¾ÝÈ«³ÌÒÔÁ÷µÄ

ÐÎÊ½´¦Àí,ËùÒÔÔÚÊý¾Ý½ÓÈë¶ËÃ»ÓÐÁËETL,×ª¶øÌæ»»ÎªÊý¾ÝÍ¨µÀ¡£¾­¹ýÁ÷´¦Àí¼Ó¹¤ºóµÄÊý


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 43 

¾Ý,ÒÔÏûÏ¢µÄÐÎÊ½Ö±½ÓÍÆËÍ¸øÏû·ÑÕß¡£ËäÈ»ÓÐ´æ´¢²¿·Ö,µ«ÊÇ¸Ã´æ´¢¸ü¶àµÄÊÇÒÔ´°¿ÚµÄÐÎÊ½
½øÐÐ´æ´¢,ËùÒÔ¸Ã´æ´¢²¢·Ç·¢ÉúÔÚÊý¾Ýºþ,¶øÊÇÔÚÍâÎ§ÏµÍ³¡£

(1)ÓÅµã:Ã»ÓÐÓ·Ö×µÄETL ¹ý³Ì,Êý¾ÝµÄÊµÐ§ÐÔ·Ç³£¸ß¡£
(2)È±µã:¶ÔÓÚÁ÷Ê½¼Ü¹¹À´Ëµ,²»´æÔÚÅú´¦Àí,Òò´Ë¶ÔÓÚÊý¾ÝµÄÖØ²¥ºÍÀúÊ·Í³¼ÆÎÞ·¨ºÜ
ºÃµØÖ§³Å¡£¶ÔÓÚÀëÏß·ÖÎö½öÖ§³Å´°¿ÚÖ®ÄÚµÄ·ÖÎö¡£
(3)ÊÊÓÃ³¡¾°:Ô¤¾¯,¼à¿Ø,¶ÔÊý¾ÝÓÐÓÐÐ§ÆÚÒªÇóµÄÇé¿ö¡£
3)Lambda¼Ü¹¹
Lambda¼Ü¹¹ÊÇ´óÊý¾ÝÏµÍ³ÀïÃæ¾Ù×ãÇáÖØµÄ¼Ü¹¹,´ó¶àÊý¼Ü¹¹»ù±¾¶¼ÊÇLambda¼Ü¹¹
»òÕß»ùÓÚÆä±äÖÖµÄ¼Ü¹¹¡£LambdaµÄÊý¾ÝÍ¨µÀ·ÖÎªÁ½Ìõ·ÖÖ§:ÊµÊ±Á÷ºÍÀëÏß¡£ÊµÊ±Á÷ÒÀÕÕ
Á÷Ê½¼Ü¹¹,±£ÕÏÁËÆäÊµÊ±ÐÔ;ÀëÏßÔòÒÔÅú´¦Àí·½Ê½ÎªÖ÷,±£ÕÏÁË×îÖÕÒ»ÖÂÐÔ¡£Á÷Ê½´¦ÀíÎª±£
ÕÏÊý¾ÝµÄÊµÐ§ÐÔ,¸ü¶àµÄÊÇ´¦ÀíÊµÊ±ÔöÁ¿Êý¾ÝÁ÷;Åú´¦Àí²ãÔò¶ÔÊý¾Ý½øÐÐÈ«Á¿ÔËËã,±£ÕÏÆä
×îÖÕµÄÒ»ÖÂÐÔ,Òò´Ë,Lambda×îÍâ²ãÓÐÒ»¸öÊµÊ±²ãºÍÀëÏß²ãºÏ²¢µÄ¶¯×÷,´Ë¶¯×÷ÊÇLambda 
ÖÐ·Ç³£ÖØÒªµÄÒ»¸ö¶¯×÷¡£

(1)ÓÅµã:¼ÈÓÐÊµÊ±ÓÖÓÐÀëÏß,¶ÔÓÚÊý¾Ý·ÖÎö³¡¾°º­¸ÇµÃ·Ç³£µ½Î»¡£
(2)È±µã:ÀëÏß²ãºÍÊµÊ±Á÷ËäÈ»ÃæÁÙµÄ³¡¾°²»ÏàÍ¬,µ«ÊÇÆäÄÚ²¿´¦ÀíµÄÂß¼­È´ÊÇÏàÍ¬
µÄ,Òò´ËÓÐ´óÁ¿ÈßÓàºÍÖØ¸´µÄÄ£¿é´æÔÚ¡£
(3)ÊÊÓÃ³¡¾°:Í¬Ê±´æÔÚÊµÊ±ºÍÀëÏßÐèÇóµÄÇé¿ö¡£
4)Kappa¼Ü¹¹
Kappa¼Ü¹¹ÔÚLambdaµÄ»ù´¡ÉÏ½øÐÐÁËÓÅ»¯,É¾³ýÁËÅú´¦ÀíÏµÍ³µÄ¼Ü¹¹,Êý¾ÝÖ»ÐèÍ¨¹ý
Á÷Ê½´«ÊäÏµÍ³¿ìËÙÌá¹©¡£Òò´Ë,¶ÔÓÚKappa¼Ü¹¹À´Ëµ,ÒÀ¾ÉÒÔÁ÷´¦ÀíÎªÖ÷,µ«ÊÇÊý¾ÝÈ´ÔÚÊý
¾Ýºþ²ãÃæ½øÐÐÁË´æ´¢,µ±ÐèÒª½øÐÐÀëÏß·ÖÎö»òÕßÔÙ´Î¼ÆËãÊ±,½«Êý¾ÝºþµÄÊý¾ÝÔÙ´Î¾­¹ýÏûÏ¢
¶ÓÁÐÖØ²¥Ò»´ÎÔò¿É¡£

(1)ÓÅµã:Kappa¼Ü¹¹½â¾öÁËLambda¼Ü¹¹ÀïÃæµÄÈßÓà²¿·Ö,ÒÔÊý¾Ý¿ÉÖØ²¥µÄ³¬·²ÍÑË×
µÄË¼Ïë½øÐÐÁËÉè¼Æ,Õû¸ö¼Ü¹¹·Ç³£¼ò½à¡£
(2)È±µã:ËäÈ»Kappa¼Ü¹¹¿´ÆðÀ´¼ò½à,µ«ÊµÊ©ÄÑ¶ÈÏà¶Ô½Ï¸ß,ÓÈÆäÊÇ¶ÔÓÚÊý¾ÝÖØ²¥
²¿·Ö¡£
(3)ÊÊÓÃ³¡¾°:ºÍLambdaÀàËÆ,¸Ã¼Ü¹¹ÊÇÕë¶ÔLambdaµÄÓÅ»¯¡£
5)Unifield¼Ü¹¹
ÒÔÉÏ¼Ü¹¹¶¼ÊÇÎ§ÈÆº£Á¿Êý¾Ý´¦ÀíÎªÖ÷,Unifield¼Ü¹¹Ôò¸ü¼¤½ø,½«»úÆ÷Ñ§Ï°ºÍÊý¾Ý´¦Àí
ÈÚÎªÒ»Ìå,´ÓºËÐÄÉÏÀ´Ëµ,UnifieldÒÀ¾ÉÒÔLambdaÎªÖ÷,²»¹ý¶ÔÆä½øÐÐÁË¸ÄÔì,ÔÚÁ÷´¦Àí²ã
ÐÂÔöÁË»úÆ÷Ñ§Ï°²ã¡£Êý¾ÝÔÚ¾­¹ýÊý¾ÝÍ¨µÀ½øÈëÊý¾Ýºþºó,ÐÂÔöÁËÄ£ÐÍÑµÁ·²¿·Ö,²¢ÇÒ½«ÆäÔÚ
Á÷Ê½²ã½øÐÐÊ¹ÓÃ¡£Í¬Ê±Á÷Ê½²ã²»µ¥Ê¹ÓÃÄ£ÐÍ,Ò²°üº¬×Å¶ÔÄ£ÐÍµÄ³ÖÐøÑµÁ·¡£

(1)ÓÅµã:Unifield¼Ü¹¹Ìá¹©ÁËÒ»Ì×Êý¾Ý·ÖÎöºÍ»úÆ÷Ñ§Ï°½áºÏµÄ¼Ü¹¹·½°¸,·Ç³£ºÃµØ½â
¾öÁË»úÆ÷Ñ§Ï°ÈçºÎÓëÊý¾ÝÆ½Ì¨½øÐÐ½áºÏµÄÎÊÌâ¡£
(2)È±µã:Unifield¼Ü¹¹ÊµÊ©¸´ÔÓ¶È¸ü¸ß,¶ÔÓÚ»úÆ÷Ñ§Ï°¼Ü¹¹À´Ëµ,´ÓÈí¼þ°üµ½Ó²¼þ²¿
Êð¶¼ºÍÊý¾Ý·ÖÎöÆ½Ì¨ÓÐ×Å·Ç³£´óµÄ²î±ð,Òò´ËÔÚÊµÊ©¹ý³ÌÖÐµÄÄÑ¶ÈÏµÊý¸ü¸ß¡£
(3)ÊÊÓÃ³¡¾°:ÓÐ×Å´óÁ¿Êý¾ÝÐèÒª·ÖÎö,Í¬Ê±¶Ô»úÆ÷Ñ§Ï°·½ÃæÓÖÓÐ×Å·Ç³£´óµÄÐèÇó¡£
ÒÔÉÏ¼¸ÖÖ´óÊý¾Ý¼Ü¹¹ÎªÄ¿Ç°Êý¾Ý´¦ÀíÁìÓòÊ¹ÓÃ±È½Ï¶àµÄ¼Ü¹¹,µ±È»»¹ÓÐºÜ¶àÆäËû¼Ü¹¹, 
²»¹ýÆäË¼Ïë¶¼»ò¶à»òÉÙµØÀàËÆ¡£Êý¾ÝÁìÓòºÍ»úÆ÷Ñ§Ï°ÁìÓò»á³ÖÐø·¢Õ¹,ÒÔÉÏ¼¸ÖÖË¼Ïë»òÐí


44 
´óÊý¾Ý¸ÅÂÛ
ÖÕ¾¿Ò²»á¹ýÊ±¡£
2.´óÊý¾Ý½â¾ö·½°¸

HadoopÔÚ´óÊý¾ÝÁìÓòµÄÓ¦ÓÃÇ°¾°¹ã·º,²»¹ýÒòÎªÆäÊÇ¿ªÔ´¼¼Êõ,Òò´ËÔÚÊµ¼ÊÓ¦ÓÃ¹ý³Ì
ÖÐ´æÔÚºÜ¶àÎÊÌâ,ÓÚÊÇºÜ¶àÆóÒµÍÆ³öÁË¸÷ÖÖ´óÊý¾ÝµÄ½â¾ö·½°¸,³£ÓÃµÄ´óÊý¾Ý½â¾ö·½°¸ÓÐ
Cloudera¡¢Hortonworks¡¢MapRºÍFusionInsightµÈ¡£

1)Cloudera 

Cloudera³ÉÁ¢ÓÚ2008Äê,ÊÇÓÉ·Ö±ðÀ´×ÔFacebook¡¢¹È¸èºÍÑÅ»¢µÄÇ°¹¤³ÌÊ¦½Ü·ò¡¤¹þÄ¬
°ÍÇÐ(JefHammerbacher)¡¢¿ËÀïË¹ÍÐ¸¥¡¤±ÈÈû¸ñÀûÑÇ(ChristopheBisciglia)¡¢°£Ä·¡¤°¢Íß´ï
À­(AmrAwadalah),ÒÔ¼°ÔøÈÎCEOµÄ¼×¹ÇÎÄÇ°¸ß¹ÜÂõ¿Ë¡¤°Â¶ûÉ­(MikeOlson)¹²Í¬´´
½¨µÄ¡£

ÔÚHadoopÉúÌ¬ÏµÍ³ÖÐ,ClouderaÊÇ¹æÄ£×î´ó¡¢ÖªÃû¶È×î¸ßµÄ¹«Ë¾¡£Cloudera´ú±í
HadoopµÄÒ»ÖÖ½â¾ö·½°¸,¿ÉÒÔÎª¿ªÔ´HadoopÌá¹©¼¼ÊõÖ§³Ö¡£Cloudera¿ÉÒÔ½«Êý¾Ý´¦Àí¿ò
¼Ü¸²¸Çµ½Õû¸öÆóÒµÊý¾ÝÖÐÐÄ,¼È¿ÉÒÔ×÷Îª¹ÜÀíÆóÒµËùÓÐÊý¾ÝµÄÖÐÐÄµã,ÓÖ¿ÉÒÔ×÷ÎªÄ¿±êÊý¾Ý
²Ö¿â¡¢¸ßÐ§µÄÊý¾ÝÆ½Ì¨»òÏÖÓÐÊý¾Ý²Ö¿âµÄETLÀ´Ô´¡£Òò´Ë,ClouderaÌá¹©ÁËÒ»¸ö¿ÉÉìËõ¡¢
ÎÈ¶¨¡¢×ÛºÏµÄÆóÒµ¼¶Êý¾Ý¹ÜÀíÆ½Ì¨,ÓÃÓÚ¹ÜÀí¿ìËÙÔö³¤µÄÊý¾Ý,Ê¹ÓÃ»§¿ÉÒÔ¿ìËÙ²¿ÊðºÍ¹ÜÀí
Hadoop¼°Ïà¹Ø´óÊý¾Ý´¦Àí¿ò¼Ü,²Ù×÷¡¢·ÖÎöÆóÒµ¼¶Êý¾Ý,²¢±£Ö¤Êý¾ÝµÄ°²È«ÐÔ¡£

2)Hortonworks 

HortonworksÕâ¸öÃû×ÖÔ´×Ô¶ùÍ¯ÊéÖÐÒ»Ö»½ÐHortonµÄ´óÏó,ÊÇÓÉÑÅ»¢¹«Ë¾ºÍ
BenchmarkCapitalÓÚ2011Äê7ÔÂÁªºÏ´´½¨µÄ,³öÉíÓÚ¡°ÃûÃÅ¡±ÑÅ»¢¹«Ë¾¡£ËüÊÇÒ»¿î»ùÓÚ
ApacheHadoopµÄ¿ªÔ´Êý¾ÝÆ½Ì¨,Ìá¹©ÁË´óÊý¾ÝÔÆ´æ´¢,´óÊý¾Ý´¦ÀíºÍ·ÖÎöµÈ·þÎñ¡£¸ÃÆ½
Ì¨×¨ÃÅÓÃÀ´Ó¦¶Ô¶àÀ´Ô´ºÍ¶à¸ñÊ½µÄÊý¾Ý,²¢Ê¹Æä´¦ÀíÆðÀ´¸ü¼òµ¥¡¢¸üÓÐ³É±¾Ð§Òæ¡£

HortonworksÓµÓÐÐí¶àHadoop¼Ü¹¹Ê¦ºÍÔ´´úÂë¹±Ï×Õß,ÕâÐ©Ô´´úÂë¹±Ï×ÕßÒÔÇ°¾ùÐ§
Á¦ÓÚÑÅ»¢¹«Ë¾,¶øÇÒÒÑ¾­ÎªApacheHadoopÏîÄ¿¹±Ï×ÁË³¬¹ý80%µÄÔ´´úÂë¡£

HortonworksÓÐÁ½¿îºËÐÄ²úÆ·:HDPºÍHDF ¡£HortonworksÃ»ÓÐ¶Ô²úÆ·ÊÕ·Ñ,¶øÊÇ
½«ÕâÁ½¿î²úÆ·ÍêÈ«¿ª·Å,½«ºËÐÄ¼¼Êõ·ÅÔÚHadoop¿ªÔ´ÉçÇøÖÐ,Ã¿¸öÈË¶¼¿ÉÒÔ¿´µ½²¢Ê¹ÓÃÕâ
Á½¿î²úÆ·¡£

HortonworksÊý¾Ý¹ÜÀí½â¾ö·½°¸Ê¹×éÖ¯¿ÉÒÔÊµÊ©ÏÂÒ»´úÏÖ´ú»¯Êý¾Ý¼Ü¹¹¡£ÎÞÂÛÊÇ¾²
Ì¬Êý¾Ý»¹ÊÇ¶¯Ì¬Êý¾Ý,Hortonworks¶¼¿ÉÒÔ´ÓÔÆµÄ±ßÔµÒÔ¼°ÄÚ²¿À´¶ÔÕâÐ©Êý¾Ý×Ê²ú½øÐÐ¹Ü
Àí¡£Í¨¹ýHortonworksÊý¾ÝÆ½Ãæ·þÎñ¿ÉÒÔ±È½ÏÈÝÒ×µØ²Ù×÷ºÍÅäÖÃ·Ö²¼Ê½Êý¾ÝÏµÍ³,ÈçÊý¾Ý
²Ö´¢ÓÅ»¯¡¢Êý¾Ý¿ÆÑ§·ÖÎö¡¢×ÔÖú·þÎñ·ÖÎöµÈ¡£ÓÉÓÚHortonworksÊÇÃâ·ÑµÄ,Òò´Ë, 
HortonworksDPSÓÃ»§¿ÉÒÔÇáËÉ·ÃÎÊ·À»ðÇ½¡¢¹«ÓÐÔÆ±³ºóµÄ¿ÉÐÅÊý¾Ý,ÕâÊ¹µÃ×éÖ¯ÄÜ¹»»ñ
µÃ´ÓÔ´µ½Ä¿±êµÄÐÅÈÎ¡£´ËÍâ,HortonworksDataFlowÄÜ¹»ÊÕ¼¯¡¢ÕûÀíºÍ´«ËÍÀ´×Ôµã»÷Á÷¡¢ÈÕ
Ö¾ÎÄ¼þ¡¢´«¸ÐÆ÷¡¢Éè±¸µÈµÄÊµÊ±Êý¾Ý¡£

3)MapR 

MapRÊÇMapRTechnologiesIncµÄ²úÆ·,ºÅ³ÆÏÂÒ»´úHadoop,ÊÇÒ»¸ö±ÈÏÖÓÐHadoop
·Ö²¼Ê½ÎÄ¼þÏµÍ³»¹Òª¿ì3±¶µÄ²úÆ·,²¢ÇÒ(.) Ò²ÊÇ¿ªÔ´µÄ¡£MapRÅä±¸ÁË¿ìÕÕ,²¢ºÅ³Æ²»»á³öÏÖ
SPOFµ¥½Úµã¹ÊÕÏ,ÇÒÓëÏÖÓÐHDFSµÄAPI¼æÈÝ,Òò´Ë·Ç³£ÈÝÒ×Ìæ»»Ô­ÓÐµÄÏµÍ³¡£MapR 
Ê¹Hadoop±äÎªÒ»¸öËÙ¶È¸ü¿ì¡¢¿É¿¿ÐÔ¸ü¸ß¡¢¸üÒ×ÓÚ¹ÜÀí¡¢Ê¹ÓÃ¸ü¼Ó·½±ãµÄ·Ö²¼Ê½¼ÆËã·þÎñ


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 45 

ºÍ´æ´¢Æ½Ì¨,Í¬Ê±ÐÔÄÜÒ²²»¶ÏÌá¸ß¡£Ëü¼«´óµØÀ©´óÁËHadoopµÄÊ¹ÓÃ·¶Î§ºÍ·½Ê½¡£Ëü°üº¬
ÁË¿ªÔ´ÉçÇøµÄÐí¶àÁ÷ÐÐµÄ¹¤¾ßºÍ¹¦ÄÜ,ÀýÈçHbase¡¢Hive¡£ËüÄÜ¹»Îª¿Í»§½ÚÔ¼Ò»°ëµÄÓ²¼þ×Ê
Ô´ÏûºÄ,Ê¹¸ü¶àµÄ×éÖ¯ÄÜ¹»ÀûÓÃº£Á¿Êý¾Ý·ÖÎöµÄÁ¦Á¿Ìá¸ß¾ºÕùÓÅÊÆ¡£

4)FusionInsight 

FusionInsightÊÇÔÚHadoop¼¯ÈºÉÏÓÖ·â×°ÁËÒ»²ã,ÀàËÆÓÚ¿ªÔ´µÄCDH ¡¢HDPµÈ´óÊý¾Ý
Æ½Ì¨,ÊÇÍêÈ«¿ª·ÅµÄ´óÊý¾ÝÆ½Ì¨,¿ÉÔËÐÐÔÚÈÎÒâ±ê×¼µÄx86·þÎñÆ÷ÉÏ,ÎÞÐëÈÎºÎ×¨ÓÃµÄÓ²¼þ
»ò´æ´¢,²¢Õë¶Ô½ðÈÚ¡¢ÔËÓªÉÌµÈÊý¾ÝÃÜ¼¯ÐÍÐÐÒµµÄÔËÐÐÎ¬»¤¡¢Ó¦ÓÃ¿ª·¢µÈÐèÇó´òÔìÁË¸ß¿É¿¿¡¢
¸ß°²È«¡¢Ò×Ê¹ÓÃµÄÔËÐÐÎ¬»¤ÏµÍ³ºÍÈ«Á¿Êý¾Ý½¨Ä£ÖÐ¼ä¼þ,ÈÃÆóÒµ¿ÉÒÔ¸ü¿ì¡¢¸ü×¼¡¢¸üÎÈµØ´Ó¸÷
Àà·±ÔÓÎÞÐòµÄº£Á¿Êý¾ÝÖÐ·¢ÏÖ¼ÛÖµ¡£

»ªÎªFusionInsightÊÇ»ùÓÚ¿ªÔ´ÉçÇøÈí¼þHadoop½øÐÐ¹¦ÄÜÔöÇ¿,Ìá¹©ÆóÒµ¼¶´óÊý¾Ý´æ
´¢¡¢²éÑ¯ºÍ·ÖÎöµÄÍ³Ò»Æ½Ì¨,°ïÖúÆóÒµ¿ìËÙ¹¹½¨º£Á¿Êý¾ÝÐÅÏ¢´¦ÀíÏµÍ³¡£Í¨¹ý¶Ô¸÷Ààº£Á¿
Êý¾ÝÐÅÏ¢½øÐÐÊµÊ±ºÍ·ÇÊµÊ±µÄ·ÖÎöºÍÍÚ¾ò,°ïÖúÆóÒµ´Óº£Á¿Êý¾ÝÐÅÏ¢ÖÐ»ñÈ¡ÕæÕýµÄ¼ÛÖµ,¼°
Ê±¶´²ìºÍ¾ö²ßÐÂµÄ»ú»áÓë·çÏÕ¡£FusionInsightHadoop·¢ÐÐ°æ½ôËæ¿ªÔ´ÉçÇøµÄ×îÐÂ¼¼Êõ, 
¿ìËÙ¼¯³É×îÐÂ×é¼þ,²¢ÔÚ¿É¿¿ÐÔ¡¢°²È«ÐÔ¡¢¹ÜÀíÐÔ·½Ãæ½øÐÐÁËÆóÒµ¼¶µÄÔöÇ¿ºÍ³ÖÐø¸Ä½ø,Ê¼ÖÕ
±£³Ö¼¼ÊõÁìÏÈ¡£¶øÇÒFusionInsightHadoop±£³ÖÁË100%µÄ¿ª·ÅÐÔ,¾ö²»Ê¹ÓÃË½ÓÐ¼Ü¹¹ºÍ
×é¼þ¡£

FusionInsight½â¾ö·½°¸ÓÉ4¸ö×Ó²úÆ·(FusionInsightHD ¡¢FusionInsightMPPDB ¡¢
FusionInsightMiner¡¢FusionInsightFarmer)ºÍ1¸ö²Ù×÷ÔËÎ¬ÏµÍ³(FusionInsight 
Manager)¹¹³É¡£

(1)FusionInsightHD:ÆóÒµ¼¶µÄ´óÊý¾Ý´¦Àí»·¾³,ÊÇÒ»¸ö·Ö²¼Ê½Êý¾Ý´¦ÀíÏµÍ³,¶ÔÍâ
Ìá¹©´óÈÝÁ¿µÄÊý¾Ý´æ´¢¡¢·ÖÎö²éÑ¯ºÍÊµÊ±Á÷Ê½Êý¾Ý´¦Àí·ÖÎöÄÜÁ¦¡£

(2)FusionInsightMPPDB:ÆóÒµ¼¶µÄ´ó¹æÄ£²¢ÐÐ´¦Àí¹ØÏµÊý¾Ý¿â¡£FusionInsight 
MPPDB²ÉÓÃMPP(MasiveParalelProcesing)¼Ü¹¹,Ö§³ÖÐÐ´æ´¢ºÍÁÐ´æ´¢,Ìá¹©PB 
(Petabyte,250×Ö½Ú)¼¶±ðÊý¾ÝÁ¿µÄ´¦ÀíÄÜÁ¦¡£

(3)FusionInsightMiner:ÆóÒµ¼¶µÄÊý¾Ý·ÖÎöÆ½Ì¨,»ùÓÚ»ªÎªFusionInsightHDµÄ·Ö
²¼Ê½´æ´¢ºÍ²¢ÐÐ¼ÆËã¼¼Êõ,Ìá¹©´Óº£Á¿Êý¾ÝÖÐÍÚ¾ò³ö¼ÛÖµÐÅÏ¢µÄÆ½Ì¨¡£
(4)FusionInsightFarmer:ÆóÒµ¼¶µÄ´óÊý¾ÝÓ¦ÓÃÈÝÆ÷,ÎªÆóÒµÒµÎñÌá¹©Í³Ò»¿ª·¢¡¢ÔË
ÐÐºÍ¹ÜÀíµÄÆ½Ì¨¡£

(5)FusionInsightManager:ÆóÒµ¼¶´óÊý¾ÝµÄ²Ù×÷ÔËÎ¬ÏµÍ³,Ìá¹©¸ß¿É¿¿¡¢°²È«¡¢ÈÝ´í¡¢
Ò×ÓÃµÄ¼¯Èº¹ÜÀíÄÜÁ¦,Ö§³Ö´ó¹æÄ£¼¯ÈºµÄ°²×°²¿Êð¡¢¼à¿Ø¡¢±¨¾¯¡¢ÓÃ»§¹ÜÀí¡¢È¨ÏÞ¹ÜÀí¡¢Éó¼Æ¡¢
·þÎñ¹ÜÀí¡¢½¡¿µ¼ì²é¡¢ÎÊÌâ¶¨Î»¡¢Éý¼¶ºÍ²¹¶¡µÈ¹¦ÄÜ¡£

ÖÐ¹úÓÐÒ»°ëÒÔÉÏµÄ½ðÈÚ¡¢±£ÏÕ¡¢ÒøÐÐÒÔ¼°È«ÇòTop50ÔËÓªÉÌÖÐµÄ25%¶¼ÓÃÁË»ªÎªµÄ´ó
Êý¾ÝÆ½Ì¨;ÖÐ¹úµÄÆ½°²³ÇÊÐ½¨ÉèÓÐ30%µÄ¿Í»§Ñ¡ÔñÁË»ªÎª¡£»ªÎªÔÚÈ«ÇòµÄÏîÄ¿¼°ºÏ×÷»ï°é
ÊýÁ¿Ïàµ±¿É¹Û¡£

Æù½ñÎªÖ¹,FusionInsightHDÒÑ¾­½»¸¶ÁË700¶à¸öÏîÄ¿,²úÉúÁË300¶à¸öºÏ×÷»ï°éºÍ¿Í
»§;ÕâÐ©ÏîÄ¿¸²¸Çµ½½ðÈÚ¡¢¹«¹²°²È«¡¢½»Í¨¡¢ÕþÎñ¡¢µçÐÅ¡¢µçÁ¦¡¢Ê¯ÓÍµÈ¸÷¸öÐÐÒµ¡£Ñ¡Ôñ
FusionInsightHD×÷Îª´óÊý¾ÝµÄ³ÐÔØÆ½Ì¨ºÍ´¦ÀíÆ½Ì¨,¿ÉÒÔ¾¡¿ÉÄÜµØ½«´óÊý¾Ý¼ÛÖµ·¢»Óµ½
¼«ÖÂ¡£

ÁíÍâ,»¹ÓÐÒÔ°¢ÀïÔÆºÍÑÇÂíÑ·ÔÆÎª´ú±íµÄÔÆÉÏ´óÊý¾Ý½â¾ö·½°¸¡£¸Ã·½°¸Ìá¹©ÁËº­¸Ç´ó


46 
´óÊý¾Ý¸ÅÂÛ

Êý¾Ý»ù´¡ÉèÊ©ºÍ´óÊý¾ÝÓ¦ÓÃÔÚÄÚµÄ·á¸»²úÆ·¼°·þÎñ,ÖúÁ¦¿Í»§¿ìËÙ¹¹½¨ÆóÒµ¼¶Êý¾Ý¼Ü¹¹,»ñ

È¡Êý¾ÝÊ±´úµÄºËÐÄ¾ºÕùÓÅÊÆ¡£

3.2 
Hadop¸ÅÊö
3.1 
Hdop¼ò½é
2.ao

Hadoop¾ÍÊÇÒ»¸ö¸üÈÝÒ×¿ª·¢ºÍÔËÐÐ¡¢´¦Àí´óÊý¾ÝµÄÈí¼þÆ½Ì¨¡£HadoopÊÇÓÉApache 
»ù½ð»áËù¿ª·¢µÄ·Ö²¼Ê½ÏµÍ³»ù´¡¼Ü¹¹,ÄÜ¹»ÔËÐÐÓÚ´ó¹æÄ£¼¯ÈºÉÏµÄ·Ö²¼Ê½¼ÆËãÆ½Ì¨¡£
HadoopÊÇ»ùÓÚJavaÓïÑÔ¿ª·¢µÄÒ»¿îÍêÈ«Ãâ·ÑµÄ¿ªÔ´³ÌÐò,ÓÐ×ÅºÜºÃµÄ¿çÆ½Ì¨ÐÔ,ÎÞÐë¹ºÂò
°º¹óµÄÈíÓ²¼þÆ½Ì¨,¿ÉÒÔÖ±½Ó²¿ÊðÔÚÁ®¼ÛµÄ¼ÆËã»ú¼¯ÈºÉÏ,¸Ã¼ÆËã»ú¼¯Èº¿ÉÒÔÓÉÒ»Ì¨ÉÌÓÃ
PC¿ªÊ¼,ºóÆÚ¿ÉÒÔ¸ù¾ÝÐèÒªÈÎÒâÔö¼ÓPC ¡£HadoopµÄÁ½´óºËÐÄÊÇHDFSºÍMapReduce¡£
HDFSÊÇHadoop·Ö²¼Ê½ÎÄ¼þÏµÍ³,Ó¢ÎÄÈ«³ÆÊÇHadoopDistributedFileSystem,ÓÃÀ´´æ´¢
º£Á¿Êý¾Ý,ÊÇ¶Ô¹È¸èÎÄ¼þÏµÍ³GFS(GoogleFileSystem)µÄ¿ªÔ´ÊµÏÖ,ÊÇÊÊºÏ²¿ÊðÔÚµÍÁ®µÄ
Ó²¼þ»·¾³ÉÏµÄ·Ö²¼Ê½ÎÄ¼þÏµÍ³,¾ßÓÐºÜºÃµÄÈÝ´íÐÔ¡¢Ò×À©Õ¹ÐÔÒÔ¼°½Ï¸ßµÄ¶ÁÐ´ËÙ¶È,ÓÐÐ§±£
Ö¤ÁËÊý¾Ý´æ´¢µÄ°²È«ÐÔ¡£MapReduceÊÇ¹È¸èMapReduceµÄ¿ªÔ´ÊµÏÖ,¿ÉÒÔÊ¹ÓÃ»§ÔÚ²»ÁË
½â·Ö²¼Ê½µ×²ãÏ¸½ÚµÄÇé¿öÏÂ¿ª·¢·Ö²¼Ê½³ÌÐò,³ä·ÖÀûÓÃMapReduceÀ´Îªº£Á¿Êý¾Ý½øÐÐ¸ßËÙ
¼ÆËã¡£Òò´Ë,ÓÃ»§¿ÉÒÔÊ¹ÓÃHadoop´î½¨ÊôÓÚ×Ô¼ºµÄ·Ö²¼Ê½¼ÆËãÆ½Ì¨,ÇáËÉ±àÐ´·Ö²¼Ê½³Ì
Ðò,Íê³Éº£Á¿Êý¾ÝµÄ´æ´¢ºÍ¼ÆËã¡£

HadoopÊÇ±»ÐÐÒµ¹«ÈÏµÄ´óÊý¾Ý±ê×¼¿ªÔ´Èí¼þ¡£Ä¿Ç°,ÓÐºÜ¶à¹«Ë¾¶¼Î§ÈÆHadoop½øÐÐ
¹¤¾ß¿ª·¢¡¢¿ªÔ´Èí¼þ¡¢ÉÌÒµ»¯¹¤¾ßºÍ¼¼Êõ·þÎñ,ÈçÎ¢Èí¡¢¹È¸è¡¢ÌÔ±¦¡¢ÑÅ»¢µÈ¡£

3.2.2 
HadoopµÄ·¢Õ¹Àú³Ì
Hadoop(¼ûÍ¼3-2)Õâ¸öÃû³ÆµÄÓÉÀ´,ÆäÊµ²¢Ã»ÓÐÌ«´óµÄÒâÒå,ÊÇDougCutingÔÚÒ»´Î
»úÔµÇÉºÏÖ®ÏÂ,ÒÔ×Ô¼ºº¢×ÓÍæ¾ß´óÏóµÄÃû×ÖÀ´ÃüÃûµÄ¡£ÔÚºóÀ´µÄHadoop×ÓÄ£¿éºÍÏîÄ¿ÖÐ, 
¶¼ÑØÓÃÁËÕâÖÖÃüÃû·ç¸ñ,ÈçHiveºÍPigµÈ¡£


2002Äê,HadoopÆðÔ´ÓÚNutch,NutchÊÇÓÉApacheLuceneÏî
Ä¿µÄ´´Ê¼ÈËDougCuting¿ª·¢µÄÒ»¸ö¿ªÔ´µÄÍøÂçËÑË÷ÒýÇæ,ÊÇ
LuceneÏîÄ¿µÄÒ»¸ö×ÓÏîÄ¿¡£NutchµÄÉè¼ÆÄ¿µÄ¾ÍÊÇ¹¹½¨Ò»¸ö´óÐÍµÄ

Í¼3-
2 
Hadop±êÖ¾
È«ÍøËÑË÷ÒýÇæ,È»¶øËæ×Å×¥È¡ÍøÒ³ÊýÁ¿µÄ¼±¾çÔö¼Ó,¸ÃËÑË÷ÒýÇæ²»ÄÜ
½â¾öÊýÊ®ÒÚÍøÒ³µÄ´æ´¢ºÍË÷ÒýÎÊÌâ¡£

ÔÚ2003Äê,¹È¸è¹«Ë¾·¢²¼ÁË¹È¸èÎÄ¼þÏµÍ³(GFS)ÂÛÎÄ,ÎÄÖÐÃèÊö
ÁË¿ÉÒÔ½â¾öº£Á¿Êý¾ÝµÄ´æ´¢ÎÊÌâ¡£µ«ÓÉÓÚ¹È¸è¹«Ë¾Î´¿ª·ÅÔ´´úÂë,ÓÚÊÇ2004Äê,NutchÏî
Ä¿Ò²Ä£·ÂGFS¿ª·¢ÁË×Ô¼ºµÄ·Ö²¼Ê½ÎÄ¼þÏµÍ³NDFS(NutchDistributedFileSystem),Ò²¾Í
ÊÇHDFSµÄÇ°Éí¡£

ÔÚ2004Äê,¹È¸è¹«Ë¾ÓÖ·¢±íÁËÁíÒ»ÆªMapReduceÂÛÎÄ,ÃèÊöÁËMapReduce·Ö²¼Ê½¼Æ
Ëã¿ò¼Ü,¿ÉÒÔÓÃÓÚ´¦Àíº£Á¿ÍøÒ³µÄË÷ÒýÎÊÌâ¡£Í¬ÑùÓÉÓÚ¹È¸è¹«Ë¾Î´¿ª·ÅÔ´´úÂë,2005Äê, 
Nutch¿ªÔ´ÊµÏÖÁË¹È¸è¹«Ë¾µÄMapReduce¡£½ÓÏÂÀ´,DougCutingÒâÊ¶µ½NDFSºÍ
MapReduce²»½ö¿ÉÒÔ½â¾öÍøÂçËÑË÷ÒýÇæÎÊÌâ,»¹ÄÜ¾ßÓÐ¶àÖÖÓÃÍ¾¡£ÓÚÊÇ,ÔÚ2006Äê2ÔÂ, 


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 47 

»ùÓÚNDFSºÍMapReduce,¶ÀÁ¢´¦Àíº£Á¿Êý¾ÝµÄÐÂÏîÄ¿±»´´½¨,³ÉÎªLuceneÏîÄ¿µÄÒ»¸ö×Ó
ÏîÄ¿,Õâ¾ÍÊÇÆð³õµÄHadoopÏîÄ¿,Í¬Ê±,DougCuting¼ÓÃËÑÅ»¢¹«Ë¾¡£ÔÚ2007Äê,Hadoop
Íê³É1TB´ÅÅÌÊý¾ÝµÄÅÅÐò½öÐèÒª297s,2008Äê1ÔÂ,HadoopÕýÊ½³ÉÎªApache¶¥¼¶ÏîÄ¿, 
HadoopÒ²Öð½¥¿ªÊ¼±»ÑÅ»¢Ö®ÍâµÄÆäËû¹«Ë¾Ê¹ÓÃ¡£2008Äê4ÔÂ,Hadoop²ÉÓÃÒ»¸öÓÉ910¸ö
½Úµã¹¹³ÉµÄ¼¯Èº¶Ô1TBÊý¾Ý½øÐÐÅÅÐòÔËËã,Ê±¼äÖ»Ðè207s¡£µ½ÁË2009Äê5ÔÂ,Hadoop¸ü
ÊÇ°Ñ1TBÊý¾ÝÅÅÐòÊ±¼äËõ¶Ìµ½62s¡£Hadoop´Ó´ËÃûÉù´óÕñ,Ñ¸ËÙ·¢Õ¹³ÉÎª´óÊý¾ÝÊ±´ú×î
¾ßÓ°ÏìÁ¦µÄ¿ªÔ´·Ö²¼Ê½¿ª·¢Æ½Ì¨,²¢³ÉÎª¹«ÈÏµÄ´óÊý¾Ý´¦Àí±ê×¼¡£

3.2.3 
HadoopµÄÌØµã
HadoopÊÇÒ»¸öÄÜ¹»ÈÃÓÃ»§ÇáËÉ¼Ü¹¹ºÍÊ¹ÓÃµÄ·Ö²¼Ê½¼ÆËãÆ½Ì¨¡£ÓÃ»§¿ÉÒÔÇáËÉµØÔÚ
Hadoop¿ª·¢ºÍÔËÐÐ´¦Àíº£Á¿Êý¾ÝµÄÓ¦ÓÃ³ÌÐò¡£ÆäÌØµãÖ÷ÒªÓÐÒÔÏÂ¼¸¸ö¡£

(1)¿É¿¿ÐÔ¸ß:HadoopÄÜ×Ô¶¯µØÎ¬»¤Êý¾ÝµÄ¶à·Ý¸±±¾,¼´Ê¹Ò»¸ö¸±±¾·¢Éú¹ÊÕÏ,ÆäËû
¸±±¾Ò²ÄÜÎ¬³ÖÕû¸öÏµÍ³µÄÕý³£¹¤×÷¡£
(2)¸ßÀ©Õ¹ÐÔ:HadoopÊÇ¼Ü¹¹ÔÚÁ®¼ÛµÄ¼ÆËã»ú¼¯ÈºÉÏ,¿ÉÒÔ¶¯Ì¬µØÔö¼Ó´æ´¢Óë¼ÆËã½Ú
µã,Ò²¿ÉÒÔÌæ»»,Òò´Ë,¿ÉÒÔ·½±ãµØÀ©Õ¹µ½ÊýÒÔÇ§¼ÆµÄ¼ÆËã»ú½ÚµãÖÐ¡£
(3)¸ßÐ§ÐÔ:HadoopÓÉÓÚ²ÉÓÃ·Ö²¼Ê½´æ´¢ºÍ·Ö²¼Ê½´¦ÀíÁ½´óºËÐÄ¼¼Êõ,ËùÒÔ,ËüÄÜ¹»
ÔÚ½ÚµãÖ®¼ä¶¯Ì¬µØÒÆ¶¯Êý¾Ý,ÄÜ¹»¸ßÐ§µØ´¦ÀíPB¼¶Êý¾Ý¡£
(4)¸ßÈÝ´íÐÔ:Hadoop²ÉÈ¡Êý¾ÝÈßÓàµÄ·½Ê½×Ô¶¯µØ´æ´¢Êý¾ÝµÄ¶à¸ö¸±±¾,²¢ÇÒÄÜ¹»×Ô
¶¯ÖØÐÂ·ÖÅäÊ§°ÜµÄÈÎÎñ¡£
(5)µÍ³É±¾:Hadoop²ÉÓÃÁ®¼ÛµÄ¼ÆËã»ú¼¯Èº,Ó²¼þ³É±¾±È½ÏµÍ,¼ÓÉÏHadoopÊÇ¿ªÔ´
µÄ,ÏîÄ¿µÄÈí¼þ³É±¾Ò²ÊÇ±È½ÏµÍµÄ¡£Òò´Ë,ÆÕÍ¨ÓÃ»§Ò²¿ÉÒÔ´î½¨×Ô¼ºµÄHadoop»·¾³¡£
(6)HadoopÊÇ»ùÓÚJavaÓïÑÔ¿ª·¢µÄ,¿ÉÒÔºÜºÃµØÔËÐÐÔÚLinuxÆ½Ì¨ÉÏ¡£
(7)HadoopÖ§³Ö¶àÖÖ±à³ÌÓïÑÔ,ÈçJava¡¢C++µÈ¡£

3.2.4 
HadoopÓ¦ÓÃÏÖ×´
HadoopÒòÆäÍ»³öµÄÓÅÊÆ,²»½öÔÚÔÆ¼ÆËãÁìÓòÓÃÍ¾¹ã·º,»¹¿ÉÒÔÓ¦ÓÃÓÚËÑË÷ÒýÇæ·þÎñ, 
´ËÍâ,»¹ÔÚ»úÆ÷Ñ§Ï°¡¢º£Á¿Êý¾Ý´¦ÀíºÍÍÚ¾ò¡¢¿ÆÑ§¼ÆËãµÈÁìÓòÔ½À´Ô½ÊÜµ½Çàíù¡£ÏÂÃæ¼òµ¥½é
ÉÜHadoopÔÚ¼¸¸öÖªÃû¹«Ë¾µÄÓ¦ÓÃÏÖ×´¡£

1.ÑÅ»¢
2007Äê,ÑÅ»¢ÔÚSunnyval5PBÈÝÁ¿µÄ

e×Ü²¿½¨Á¢ÁËÒ»¸ö°üº¬ÁË4000¸ö´¦ÀíÆ÷ºÍ1.

Hadoop¼¯ÈºÏµÍ³¡£ÑÅ»¢ÊÇHadoopµÄ×î´óÖ§³ÖÕß,½ØÖÁ2012Äê,ÑÅ»¢µÄHadoop»úÆ÷×Ü½Ú

µãÊýÄ¿³¬¹ý42000¸ö,ÓÐ³¬¹ý10ÍòµÄºËÐÄCPUÔÚÔËÐÐHadoop¡£×î´óµÄÒ»¸öµ¥Master½Ú

µã¼¯ÈºÓÐ4500¸ö½Úµã¡£×ÜµÄ¼¯Èº´æ´¢ÈÝÁ¿´óÓÚ350PB,Ã¿ÔÂÌá½»µÄ×÷ÒµÊýÄ¿³¬¹ý1000Íò

¸ö,ÔÚPigÖÐ³¬¹ý60%µÄHadoop×÷ÒµÊÇÊ¹ÓÃPig±àÐ´Ìá½»µÄ¡£

Ä¿Ç°,ÑÅ»¢ÓµÓÐÈ«Çò×î´óµÄHadoop¼¯Èº,Ö÷ÒªÓÃÓÚÖ§³Ö¹ã¸æÏµÍ³¡¢WebËÑË÷¡¢¸öÐÔ»¯ÍÆ
¼ö¡¢ÓÃ»§ÐÐÎª·ÖÎöµÈ¡£


48 
´óÊý¾Ý¸ÅÂÛ

2.Facebook 

Facebook×÷ÎªÈ«ÇòÖªÃûµÄÉç½»ÍøÕ¾,Ã¿ÌìÓµÓÐ3ÒÚ¶àµÄ»îÔ¾ÓÃ»§,ÆäÖÐ,Ã¿Ìì¶¼ÓÐ¼¸Ç§
ÍòµÄÓÃ»§ÔÚÉÏ´«º£Á¿µÄÕÕÆ¬ºÍÊÓÆµ,Òò´Ë,FacebookÊ¹ÓÃHadoop´æ´¢ÄÚ²¿ÈÕÖ¾Óë¶àÎ¬Êý
¾Ý¡£Ä¿Ç°,Hadoop¼¯ÈºµÄ»úÆ÷½Úµã³¬¹ý1400 Ì¨,¹²¼Æ11200 ¸öºËÐÄCPU,³¬¹ý15PB Ô­Ê¼
´æ´¢ÈÝÁ¿,Ã¿¸öÉÌÓÃ»úÆ÷½ÚµãÅäÖÃÁË8ºËCPU,12TB Êý¾Ý´æ´¢,Ö÷ÒªÊ¹ÓÃStreamingAPI ºÍ
JavaAPI ±à³Ì½Ó¿Ú¡£FacebookÖ÷Òª½«HadoopÆ½Ì¨ÓÃÓÚÈÕÖ¾´¦Àí¡¢ÍÆ¼öÏµÍ³ºÍÊý¾Ý²Ö¿âµÈ
·½Ãæ¡£

3. 
°Ù¶È
°Ù¶È×÷ÎªÈ«Çò×î´óµÄÖÐÎÄËÑË÷ÒýÇæ¹«Ë¾,Ã¿ÌìÐèÒª¸ßÐ§µØ´æ´¢ºÍ´¦Àíº£Á¿µÄÊý¾Ý,Òò
´Ë,°Ù¶ÈÑ¡ÔñÁËHadoopÆ½Ì¨,Ö÷ÒªÓÃÓÚÍøÒ³µÄ¾ÛÀà¡¢ÈÕÖ¾µÄ´æ´¢ºÍÍ³¼Æ¡¢ÍøÒ³Êý¾ÝµÄ·ÖÎöºÍ
ÍÚ¾ò¡¢ÉÌÒµ·ÖÎö¡¢ÔÚÏßÊý¾Ý·´À¡µÈ¡£2012 Äê,°Ù¶ÈµÄHadoop¼¯Èº¹æÄ£´ïµ½Ê®Óà¸ö,µ¥¼¯Èº
³¬¹ý2800 Ì¨»úÆ÷½Úµã,Hadoop»úÆ÷×ÜÊýÓÐÉÏÍòÌ¨,×ÜµÄ´æ´¢ÈÝÁ¿³¬¹ý100PB,ÒÑ¾­Ê¹ÓÃµÄ
³¬¹ý74PB,Ã¿ÌìÌá½»µÄ×÷ÒµÊýÄ¿ÓÐÊýÇ§¸öÖ®¶à,Ã¿ÌìµÄÊäÈëÊý¾ÝÁ¿ÒÑ¾­³¬¹ý7500TB,Êä³ö
³¬¹ý1700TB ¡£°Ù¶ÈµÄHadoop¼¯ÈºÎªÕû¸ö¹«Ë¾µÄÊý¾ÝÍÅ¶Ó¡¢´óËÑË÷ÍÅ¶Ó¡¢ÉçÇø²úÆ·ÍÅ¶Ó¡¢¹ã
¸æÍÅ¶Ó,ÒÔ¼°LBS ÍÅ¶ÓÌá¹©Í³Ò»µÄ¼ÆËãºÍ´æ´¢·þÎñ,Ö÷ÒªÓ¦ÓÃ°üÀ¨Êý¾ÝÍÚ¾òÓë·ÖÎö¡¢ÈÕÖ¾·Ö
ÎöÆ½Ì¨¡¢Êý¾Ý²Ö¿âÏµÍ³¡¢ÍÆ¼öÒýÇæÏµÍ³¡¢ÓÃ»§ÐÐÎª·ÖÎöÏµÍ³µÈ¡£Í¬Ê±,°Ù¶ÈÔÚHadoopµÄ»ù´¡
ÉÏ»¹¿ª·¢ÁË×Ô¼ºµÄÈÕÖ¾·ÖÎöÆ½Ì¨¡¢Êý¾Ý²Ö¿âÏµÍ³,ÒÔ¼°Í³Ò»µÄC++±à³Ì½Ó¿Ú,²¢¶ÔHadoop
½øÐÐÉî¶È¸ÄÔì,¿ª·¢ÁËHadoopC++À©Õ¹HCE ÏµÍ³¡£

4. 
ÌÚÑ¶
ÌÚÑ¶ÊÇÊ¹ÓÃHadoop×îÔçµÄÖÐ¹ú»¥ÁªÍø¹«Ë¾Ö®Ò»,½ØÖÁ2012 ÄêÄêµ×,ÌÚÑ¶µÄHadoop
¼¯Èº»úÆ÷×ÜÁ¿³¬¹ý5000 Ì¨,×î´óµ¥¼¯ÈºÔ¼Îª2000 ¸ö½Úµã,²¢ÀûÓÃHadoop-Hive¹¹½¨ÁË×Ô
¼ºµÄÊý¾Ý²Ö¿âÏµÍ³(TDW), Í¬Ê±»¹¿ª·¢ÁË×Ô¼ºµÄTDW-IDE »ù´¡¿ª·¢»·¾³¡£ÌÚÑ¶µÄ
HadoopÎªÌÚÑ¶¸÷¸ö²úÆ·ÏßÌá¹©»ù´¡ÔÆ¼ÆËãºÍÔÆ´æ´¢·þÎñ,ÆäÖ÷ÒªÓ¦ÓÃ°üÀ¨ÌÚÑ¶Éç½»¹ã¸æ
Æ½Ì¨¡¢ËÑËÑ(SOSO )¡¢ÌÚÑ¶Î¢²©¡¢QQ »áÔ±¡¢QQ ¿Õ¼ä¡¢ÊÖ»úQQ ¡¢QQ ÒôÀÖµÈ¡£

5. 
»ªÎª
»ªÎªÊÇHadoopµÄÊ¹ÓÃÕß,Ò²ÊÇHadoop¼¼ÊõµÄÖØÒªÍÆ¶¯Õß¡£ÓÉÑÅ»¢³ÉÁ¢µÄHadoop
¹«Ë¾HortonworksÔø¾­·¢²¼Ò»·Ý±¨¸æ,ÓÃÀ´ËµÃ÷¸÷¸ö¹«Ë¾¶ÔHadoop·¢Õ¹µÄ¹±Ï×¡£ÆäÖÐ, 
»ªÎª¹«Ë¾ÔÚHadoopÖØÒª¹±Ï×¹«Ë¾Ãûµ¥ÄÚ,ÅÅÔÚ¹È¸èÀûË¼¿Æ¹«Ë¾µÄÇ°Ãæ,ËµÃ÷»ªÎª¹«Ë¾Ò²ÔÚ
»ý¼«²ÎÓë¿ªÔ´ÉçÇø¹±Ï×¡£ÕâÀïÖµµÃÒ»ÌáµÄÊÇ,»ªÎªµÄFusionInsight´óÊý¾ÝÆ½Ì¨,ËüÊÇ¼¯
HadoopÉúÌ¬·¢ÐÐ°æ¡¢´ó¹æÄ£²¢ÐÐ´¦ÀíÊý¾Ý¿â¡¢´óÊý¾ÝÔÆ·þÎñÓÚÒ»ÌåµÄÈÚºÏÊý¾Ý´¦ÀíÓë·þÎñ
Æ½Ì¨,ÓµÓÐ¶Ëµ½¶ËÈ«ÉúÃüÖÜÆÚµÄ½â¾ö·½°¸ÄÜÁ¦¡£»ªÎªFusionInsight´óÊý¾ÝÆ½Ì¨ÒÑÔÚ40 ¶à
¸ö¹ú¼Ò,×Ü¼Æ700 ¶à¸öÏîÄ¿ÖÐ³É¹¦ÊµÏÖÁËÉÌÓÃ¡£¿Í»§°üÀ¨ÖÐ¹úÊ¯ÓÍ¡¢Ò»Æû¼¯ÍÅ¡¢ÖÐ¹úÉÌ·É¡¢¹¤
ÉÌÒøÐÐ¡¢ÕÐÉÌÒøÐÐ¡¢ÖÐ¹úÒÆ¶¯¡¢Î÷°àÑÀµçÐÅµÈÖÚ¶àÊÀ½ç500 Ç¿ÆóÒµ¡£Í¬Ê±,»ªÎª¹«Ë¾ÔÚÈ«Çò½¨
³ÉÁË13 ¸ö¿ª·ÅÊµÑéÊÒ,ÔÚÕâÀï,»ªÎªÓë¸÷¹ú200 ¶à¼ÒºÏ×÷»ï°é½øÐÐ´óÊý¾Ý·½°¸µÄÁªºÏ´´ÐÂ, 
°üÀ¨SAP ¡¢°£É­ÕÜ¡¢IBM ¡¢ÓîÐÅ¿Æ¼¼¡¢ÖÐÈí¹ú¼ÊµÈ,¹²Í¬ÍÆ¶¯´óÊý¾Ý¼¼ÊõÔÚ¸÷ÐÐ¸÷ÒµµÄÓ¦ÓÃ¡£


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 49 

6.ÖÐ¹úÒÆ¶¯
ÖÐ¹úÒÆ¶¯ÓÚ2010Äê5ÔÂÕýÊ½ÍÆ³ö´óÔÆ(0),¼¯Èº½Úµã´ïµ½ÁË1024¸ö¡£ÖÐ¹ú

BigCloud1.
ÒÆ¶¯µÄ´óÔÆ»ùÓÚHadoopµÄMapReduceÊµÏÖÁË·Ö²¼Ê½¼ÆËã,²¢ÀûÓÃÁËHDFSÀ´ÊµÏÖ·Ö²¼Ê½
´æ´¢,²¢¿ª·¢ÁË»ùÓÚHadoopµÄÊý¾Ý²Ö¿âÏµÍ³(HugeTable),²¢ÐÐÊý¾ÝÍÚ¾ò¹¤¾ß¼¯(BCPDM),ÒÔ¼°²¢ÐÐÊý¾Ý³éÈ¡×ª»¯(BC-ETL),¶ÔÏó´æ´¢ÏµÍ³(BC-ONestd)µÈÏµÍ³,²¢¿ªÔ´ÁË×Ô
¼ºµÄBC-Hadoop°æ±¾¡£

³ýÁË°Ù¶È¡¢ÌÚÑ¶¡¢»ªÎª¡¢ÖÐ¹úÒÆ¶¯,¹úÄÚ²ÉÓÃHadoopµÄ¹«Ë¾»¹ÓÐÌÔ±¦¡¢ÍøÒ×µÈ,ÆäÖÐ,ÌÔ
±¦µÄHadoop¼¯Èº±È½Ï´ó¡£

3.5 
HdopµÄ°æ±¾
2.ao

ÓÉÓÚHadoop°æ±¾±È½Ï»ìÂÒ,Òò´Ë,¶ÔÓÚºÜ¶à³õÑ§ÕßÀ´Ëµ,ÈçºÎÑ¡ÔñºÏÊÊµÄHadoop°æ
±¾,Ò»Ö±ÊÇ±È½ÏÀ§»óµÄÊÂÇé¡£

1.Ãâ·Ñ¿ªÔ´µÄApacheHadoop°æ±¾
Ãâ·Ñ¿ªÔ´µÄHadoop°æ±¾·ÖÎªÁ½´ú,ÈçÍ¼3-3ËùÊ¾¡£


Í¼3-
3 
Hadop°æ±¾

(0¡£½«µÚÒ»´úHadp³ÆÎªHad0,°üº¬3¸ö´ó°æ±¾,·Ö±ðÊÇ0.x,

1)Hadoop1.oooop1.20.

0.xºÍ0.x, 0.x×îºóÑÝ»¯³É1.x, op1.¶ø0.xºÍ
21.22.ÆäÖÐ,20.0.±ä³ÉÁËHado0µÄÎÈ¶¨°æ, 21.
0.xÔòÔö¼ÓÁËHDFSHAµÈÐÂµÄÖØ´óÌØÐÔ¡£
22.
(2)Hado0¡£Hado0¾ÍÊÇApcoopµÄµÚ¶þ´ú°æ±¾, ·Ö
op2.op2.aheHad°üº¬Á½¸ö°æ±¾, 
±ðÊÇ0.xºÍ2.x,ËüÃÇÍêÈ«²»Í¬ÓÚHad0,ÊÇÒ»Ì×È«ÐÂµÄ¼Ü¹¹,¾ù°üº¬HDFS

23.oop1.
FederationºÍYARNÁ½¸öÏµÍ³¡£
op3.p2.Ä¿Ç°,HadoopÒÑ¾­Éý¼¶µ½ÁËµÚÈý´ú,¼´Hado0,ËüÔÚHadoo0µÄ»ù´¡ÉÏ¼¯³ÉÁË
Ðí¶àÖØÒªµÄÔöÇ¿¹¦ÄÜ,´Ó¶øÌá¸ßÁËÆ½Ì¨µÄÐ§ÂÊ¡£µ«ÊÇ,¶ÔÓÚHadoop3.Ò»·½ÃæËüµÄ°²

0¶øÑÔ, 
×°¡¢ÔËÐÐ»·¾³²»ÄÜµÍÓÚJDK1.ÁíÒ»·½Ãæ,ÔÚÄ¿Ç°µÄÊµ¼ÊÊ¹ÓÃ¹ý³ÌÖÐ,Had0µÄÎÈ¶¨ÐÔ
±ÈHad0²î¡£
8, oop3.

oop2.

2.HadoopµÄ·¢ÐÐ°æ
2009Äê,ClouderaÍÆ³öÁËµÚÒ»¸öHadoop·¢ÐÐ°æ,³ÆÎªCDH,´ËºóºÜ¶à¹«Ë¾¶¼¼ÓÈë


50 
´óÊý¾Ý¸ÅÂÛ

Hadoop²úÆ·»¯µÄÐÐÁÐ,ÈçHortonworks·¢ÐÐ°æ¡¢Intel·¢ÐÐ°æ¡¢»ªÎª·¢ÐÐ°æ¡¢MapRµÈ,ËùÓÐ
ÕâÐ©·¢ÐÐ°æ¾ùÊÇ»ùÓÚApacheHadoopÑÜÉú³öÀ´µÄ,µ«Ç°Õß¸üºÃÓÃ¡¢¹¦ÄÜ¸ü¶à¡£¹úÄÚ´ó¶àÊý
¹«Ë¾µÄ·¢ÐÐ°æÊÇÊÕ·ÑµÄ,Èç»ªÎª·¢ÐÐ°æµÈ¡£²»ÊÕ·ÑµÄHadoop°æ±¾Ö÷ÒªÓÐ¹úÍâµÄ4¸ö,·Ö±ð
ÊÇApache»ù½ð»áµÄHadoop¡¢ClouderaHadoop(CDH )¡¢HortonworksDataPlatform 
(HDP)ºÍMapR¡£ÕâÀï¼òµ¥½éÉÜClouderaHadoopºÍHortonworksDataPlatform ¡£

ClouderaHadoop:Cloudera°æ±¾²ã´Î¸ü¼ÓÇåÎú,ÇÒËüÌá¹©ÁËÊÊÓÃÓÚ¸÷ÖÖ²Ù×÷ÏµÍ³µÄ
Hadoop°²×°°ü,¿ÉÖ±½ÓÊ¹ÓÃapt-get»òÕßyumÃüÁî½øÐÐ°²×°,¸ü¼ÓÊ¡ÊÂ¡£

HortonworksDataPlatform:ËüÊÇHortonworksµÄÖ÷´ò²úÆ·,Ò²Í¬ÑùÊÇ100%¿ªÔ´µÄ
²úÆ·,HDP³ýÁË³£¼ûµÄÏîÄ¿Íâ»¹°üº¬ÁËAmbari¡ª¡ª¡ªÒ»¿î¿ªÔ´µÄ°²×°ºÍ¹ÜÀíÏµÍ³¡£
HCatalogÊÇÒ»¸öÔªÊý¾Ý¹ÜÀíÏµÍ³,ÏÖÒÑ¼¯³Éµ½Facebook¿ªÔ´µÄHiveÖÐ¡£HortonworksµÄ
Stinger¿ª´´ÐÔµØ¡¢¼«´óµØÓÅ»¯ÁËHiveÏîÄ¿¡£HortonworksÎªÈëÃÅÌá¹©ÁËÒ»¸ö·Ç³£ºÃµÄ¡¢Ò×
ÓÚÊ¹ÓÃµÄÉ³ºÐ¡£Hortonworks¿ª·¢ÁËºÜ¶àÔöÇ¿ÌØÐÔ²¢Ìá½»ÖÁºËÐÄÖ÷¸É,ÕâÊ¹µÃApache 
HadoopÄÜ¹»ÔÚ°üÀ¨WindowsServerºÍWindowsAzureÔÚÄÚµÄMicrosoftWindowsÆ½Ì¨
ÉÏ±¾µØÔËÐÐ¡£

3.ÈçºÎÑ¡Ôñ°æ±¾
¶Ô³õÑ§Õß¶øÑÔ,ÕâÀï½¨ÒéÑ¡ÓÃApcopµÄ2.¿ÉÒÔÈ¥Apce¹ÙÍøÖ±½ÓÏÂ

aheHado0°æ±¾, ah
ÔØ,ÏÂÔØµØÖ·Îªhtps://haop.pceog/rlae.tl,ÈçÍ¼3-4ËùÊ¾¡£

doaah.reesshm


Í¼3-
4 
ApacheHadopÏÂÔØ°æ±¾

3.3 
HadopµÄÉúÌ¬ÏµÍ³¸ÅÊö
3.1 
HdopµÄÉúÌ¬ÏµÍ³
3.ao

2006ÄêÏîÄ¿¿ªÊ¼ÒÔÀ´,HadpÏµÍ³¾ÍµÃµ½²»¶ÏÍêÉÆºÍ¸Ä½ø,Had0ÔÚHad

oooop2.oop

0µÄ»ù´¡ÉÏÐÂÔöÁËHDFSHAºÍYARNµÈÒ»Ð©ÖØÒªµÄÐÂ×é¼þ,ÒÑ¾­ÐÎ³ÉÒ»¸ö·á¸»µÄ
pÉúÌ¬ÏµÍ³,Í¼35ËùÊ¾µÄHad0ÖÐÓÐ¶à¸ö¹¦ÄÜ×é¼þ¡£

1.
Hadoo-oop2.
Hadoop2.educ

0µÄºËÐÄ¹¦ÄÜ×é¼þÓÐ3¸ö,·Ö±ðÊÇHDFS(·Ö²¼Ê½ÎÄ¼þÏµÍ³)¡¢MapRe(·Ö


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 51 


Í¼3-Hd0ÉúÌ¬ÏµÍ³

5 
aop2.

²¼Ê½ÔËËã±à³Ì¿ò¼Ü)ºÍYARN(ÔËËã×ÊÔ´µ÷¶ÈÏµÍ³),´ËÍâ,»¹°üÀ¨Hive¡¢Pig¡¢ZooKeper¡¢
HBase¡¢Mahout¡¢Sqoop¡¢Flume ¡¢AmbariµÈ¹¦ÄÜ×é¼þ¡£

3.3.2 
HadoopµÄ×é³É½éÉÜ
1½Ú½éÉÜÁËHadpµÄÉúÌ¬ÏµÍ³,±¾½Ú¼òµ¥½éÉÜHadp¸÷×é¼þµÄ¹¦ÄÜºÍ×÷ÓÃ¡£

3.3.oooo

1.HDFS 

HDFS(HadoopDistributedFileSystem),¼´Hadoop·Ö²¼Ê½ÎÄ¼þÏµÍ³,Ô´×Ô¹È¸è¹«Ë¾
µÄGFSÂÛÎÄ,·¢±íÓÚ2003Äê10ÔÂ,HDFSÊÇGFSµÄ¿ªÔ´ÊµÏÖ¡£HDFSÊÇHadoopÁ½¸öºË
ÐÄ¼¼ÊõÖ®Ò»,Î»ÓÚHadoopÉúÌ¬ÏµÍ³µÄ×îµ×²ã,ÆäËû×é¼þ¶¼ÊÇÔÚHDFSµÄ»ù´¡ÉÏ×éºÏ»òÕßÊ¹
ÓÃµÄ,¸ºÔðÕû¸ö·Ö²¼Ê½ÎÄ¼þµÄ´æ´¢,Ò²¾ÍÊÇÊ¹ÓÃÁ®¼ÛµÄÉÌÓÃ·þÎñÆ÷À´Íê³É´óÁ¿Êý¾ÝµÄ´æ´¢, 
Êý¾ÝÖ»ÄÜÒ»´ÎÐÔÐ´Èë,¿ÉÒÔ¶à´Î¶ÁÈ¡Êý¾Ý,ÓÃÓÚÊý¾Ý·ÖÎö¡£HDFSÔÚÉè¼ÆÉÏ°ÑÓ²¼þ³ö´í×÷Îª
Ò»ÖÖ³£Ì¬À´¶Ô´ý,¼´Ê¹²¿·ÖÓ²¼þ(»úÆ÷½Úµã)·¢Éú¹ÊÕÏÊ±Õû¸öÎÄ¼þÏµÍ³»¹ÊÇ¿ÉÒÔÕý³£ÔËÐÐµÄ, 
Òò´Ë,Ëü¾ßÓÐ¸ßÈÝ´íÐÔ¡¢¸ß¿É¿¿ÐÔµÄÓÅµã¡£´ËÍâ,HDFSÍ¨¹ýÁ÷Ê½Êý¾Ý·ÃÎÊÓ¦ÓÃ³ÌÐòÊý¾ÝÊ±, 
¾ßÓÐºÜ¸ßµÄÍÌÍÂÁ¿,·Ç³£ÊÊºÏÓÃÀ´½â¾ö´øÓÐ´óÐÍÊý¾Ý¼¯µÄÓ¦ÓÃ³ÌÐòµÄÊý¾Ý´æ´¢ÎÊÌâ¡£

2.YARN 

YARN(YeohrRsucsNegtao¼´ÔËËã×ÊÔ´µ÷¶ÈÏµÍ³, op2.

tAnteeoreoitr), ÊÇHado0ÖÐ
µÄ×ÊÔ´¹ÜÀíÏµÍ³,Î»ÓÚHDFSµÄÉÏ²ã¡£YARNµÄ»ù±¾Ë¼ÏëÊÇ½«MRv1ÖÐµÄJobTrackerµÄ
×ÊÔ´¹ÜÀíºÍ×÷Òµµ÷¶È/¼à¿ØÁ½¸öÖ÷Òª¹¦ÄÜ²ð·Ö³ÉÁ½¸ö¶ÀÁ¢µÄ·þÎñ,Ò»¸öÊÇÈ«¾ÖµÄ×ÊÔ´µ÷¶ÈÆ÷
ResourceManager(RM)ºÍÈô¸ÉÕë¶ÔÓ¦ÓÃ³ÌÐòµÄÓ¦ÓÃ³ÌÐò¹ÜÀíÆ÷ApplicationMaster(AM), 
¸Ãµ÷¶ÈÆ÷ÊÇÒ»¸ö¡°´¿µ÷¶ÈÆ÷¡±,²»ÔÙ²ÎÓëÈÎºÎÓë¾ßÌåÓ¦ÓÃ³ÌÐòÂß¼­Ïà¹ØµÄ¹¤×÷,¶ø½ö¸ù¾Ý¸÷¸ö


52 
´óÊý¾Ý¸ÅÂÛ

Ó¦ÓÃ³ÌÐòµÄ×ÊÔ´ÐèÇó½øÐÐ·ÖÅä,×ÊÔ´·ÖÅäµÄµ¥Î»ÓÃÒ»¸ö×ÊÔ´³éÏó¸ÅÄîContainer±íÊ¾, 
Container·â×°ÁËÄÚ´æºÍCPU ¡£Í¨¹ýHDFS´æ´¢Êý¾Ýºó,ÔÚ¶ÔÊý¾Ý´¦ÀíÖ®Ç°,±ØÐëÒªÓÐÏà¹Ø
µÄ¿ò¼ÜÈ¥µ÷¶È¼ÆËãµ×²ã×ÊÔ´,µ×²ãÕâÃ´¶à×ÊÔ´Ö÷Òª¿¿YARN¿ò¼ÜÈ¥µ÷¶È,YARN×¨ÃÅ¸ºÔð
µ÷¶ÈÄÚ´æ¡¢CPUºÍ´ø¿íµÈ¼ÆËã»ú×ÊÔ´¡£YARNµÄÒýÈëÎªHadoop¼¯ÈºÔÚÀûÓÃÂÊ¡¢×ÊÔ´Í³Ò»
¹ÜÀíºÍÊý¾Ý¹²ÏíµÈ·½Ãæ´øÀ´ÁË¾Þ´óµÄºÃ´¦¡£

3.MapReduce 

MapReduceÔ´×Ô¹È¸è¹«Ë¾·¢±íÓÚ2004Äê12ÔÂµÄMapReduceÂÛÎÄ,ÎÄÖÐ½²µÄ
MapReduceÊÇÖ¸HadoopMapReduce,ËüÊÇ¹È¸è¹«Ë¾MapReduceµÄ¿ªÔ´ÊµÏÖ¡£MapReduce 
ÊÇ¼ÌHDFSÖ®ºóµÄHadoopµÄÁíÒ»¸öºËÐÄ¼¼Êõ,ÊÇÒ»¸öÓÃÓÚ·Ö²¼Ê½²¢ÐÐÊý¾Ý´¦ÀíµÄ±à³ÌÄ£
ÐÍ,ÓÃÓÚ´ó¹æÄ£Êý¾Ý¼¯(´óÓÚ1TB)µÄ²¢ÐÐÔËËã,Ëü½«×÷Òµ·ÖÎªMapºÍReduceÁ½¸ö½×¶Î¡£¿ª
·¢ÈËÔ±ÎªHadoop±àÐ´MapReduce×÷Òµ,²¢Ê¹ÓÃHDFSÖÐ´æ´¢µÄÊý¾Ý,HadoopÒÔ²¢ÐÐµÄ
·½Ê½½«´¦Àí¹ý³ÌÒÆÏòÊý¾Ý,´Ó¶øÊµÏÖº£Á¿Êý¾ÝµÄ¿ìËÙ´¦Àí¡£¼òµ¥µØ½²,MapReduce¾ÍÊÇ²É
È¡¡°·Ö¶øÖÎÖ®¡±µÄ²ßÂÔÀ´ÊµÏÖ¶Ôº£Á¿Êý¾ÝµÄ´¦Àí,Ëü°ÑÊäÈëµÄÊý¾Ý¼¯²ð·Ö³ÉÎª¶à¸ö¶ÀÁ¢µÄÊý
¾Ý¿é,È»ºó·Ö·¢¸ø¶ÔÓ¦Ö÷½ÚµãÏÂµÄ¸÷¸ö·Ö½ÚµãÀ´¹²Í¬²¢ÐÐÍê³É,×îºó,ÕûºÏ¸÷¸ö½ÚµãµÄÖÐ¼ä
½á¹ûµÃµ½×îÖÕ½á¹û¡£

´ËÍâ,MapReduce²»ÊÊºÏ×öÊµÊ±¼ÆËã,ÊÇ×¨ÃÅ×öÅú´¦ÀíºÍÀëÏß¼ÆËãµÄ,Òò´Ë,×öÊµÊ±¼Æ
ËãÊ±²»ÒªÓÃMapReduce¡£

4.Spark 

SparkÊÇÓÉ¼ÓÖÝ´óÑ§²®¿ËÀû·ÖÐ£AMPÊµÑéÊÒ¿ª·¢µÄÍ¨ÓÃÄÚ´æ²¢ÐÐ¼ÆËã¿ò¼Ü,ÊÇÒ»¸öÊµ
ÏÖ¿ìËÙÍ¨ÓÃµÄ¼¯Èº¼ÆËãÆ½Ì¨¡£SparkÀ©Õ¹ÁËMapReduceµÄ¼ÆËãÄ£ÐÍ,¶øÇÒ¸ßÐ§µØÖ§³Ö¸ü¶à
µÄ¼ÆËãÄ£Ê½,°üÀ¨½»»¥Ê½²éÑ¯ºÍÁ÷´¦Àí¡£ÔÚ´¦Àí´ó¹æÄ£Êý¾Ý¼¯µÄÊ±ºò,ËÙ¶ÈÊÇ·Ç³£ÖØÒªµÄ¡£
SparkµÄÂß¼­ºÍMapReduceÊÇÒ»ÑùµÄ,Ò²ÊÇÓÃMapºÍReduceº¯ÊýÈ¥×öÊý¾Ý´¦Àí,µ«ÊÇËü
ÓÖ²»Í¬ÓÚMapReduce¡£SparkÊÇ»ùÓÚÄÚ´æµÄ¼ÆËã,¶øMapReduceÊÇ»ùÓÚ´ÅÅÌµÄ¼ÆËã, 
MapReduce´¦ÀíÊý¾ÝÊ±,ÊÇÏÈ°ÑÊý¾ÝÐ´Èë´ÅÅÌÖÐ,´ýÊý¾Ý´¦Àí½áÊøºó,»¹Òª°ÑÊý¾ÝÐ´µ½·Ö²¼
Ê½ÎÄ¼þÏµÍ³ÖÐ,¶øSpark¶ÔÊý¾ÝµÄÈ«²¿´¦Àí¶¼ÊÇÔÚÄÚ´æÖÐÖ´ÐÐµÄ¡£Òò´Ë,SparkÒª±È
MapReduce¸ü¼Ó¸ßÐ§,ËùÒÔ,ÏÖÔÚºÜ¶àÆóÒµ¶¼ÔÚÓÃSpark,Ô­À´ÓÃMapReduceµÄÆóÒµÒ²ÔÚÖð
½¥½«ÆäÌæ»»ÎªSpark¡£

5.Tez 

TezÊÇApache¿ªÔ´µÄ¡¢Ö§³ÖDAG(ÓÐÏòÎÞ»·Í¼)×÷ÒµµÄ¼ÆËã¿ò¼Ü,ËüÖ±½ÓÔ´ÓÚ
MapReduce¿ò¼Ü¡£TezµÄºËÐÄË¼ÏëÊÇ°ÑºÜ¶àMapºÍReduce×÷Òµ½øÐÐ½øÒ»²½²ð·Ö,¼´Map
±»²ð·Ö³ÉInput¡¢Procesor¡¢Sort¡¢MergeºÍOutput,Reduce±»²ð·Ö³ÉInput¡¢Shufle¡¢Sort¡¢
Merge¡¢ProcesorºÍOutputµÈ,¾­¹ý·ÖÎöºÍÓÅ»¯´¦Àí,ÐÎ³ÉÒ»¸ö´óµÄDAG×÷Òµ,´Ó¶øÌá¸ß
MapReduce×÷ÒµµÄ´¦ÀíÐ§ÂÊ,Ëü»á·ÖÇåÄÄÐ©¹¤×÷ÏÈ×ö,ÄÄÐ©ºó×ö,ÄÄÐ©²»ÐèÒªÖØ¸´×ö,ÕâÊÇ
TezµÄ¹¦ÄÜ¡£TezÒÑ±»HortonworksÓÃÓÚHiveÒýÇæµÄÓÅ»¯,¾­²âÊÔ,ÐÔÄÜÌáÉýÔ¼100±¶¡£


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 53 

6.Hive 

HiveÊÇÊý¾Ý²Ö¿â¹¤¾ß,ÊÇÓÉFacebook¿ªÔ´ÊµÏÖµÄ,×î³õÓÃÓÚ½â¾öº£Á¿½á¹¹»¯µÄÈÕÖ¾Êý
¾ÝÍ³¼ÆÎÊÌâµÄETL¹¤¾ß¡£ËùÎ½Êý¾Ý²Ö¿â¾ÍÊÇ°Ñ´óÁ¿µÄÊý¾Ý±£´æÆðÀ´,¶ÔÕâÐ©Êý¾Ý½øÐÐÍÚ
¾ò,·ÖÎö³öÓÐ¼ÛÖµµÄÊý¾ÝÐÅÏ¢,´Ó¶øÌá¹©¸øÆóÒµÀ´×ö¾ö²ß·ÖÎö¡£È»¶ø,Ïà¶ÔÓÚ½ñÌìº£Á¿Êý¾Ý
µÄ´æ´¢,ÑØÓÃ´«Í³µÄÊý¾Ý²Ö¿âÀ´´æ´¢Êý¾ÝÊÇ²»ÄÜÂú×ãÒªÇóµÄ,ÕâÊ±¿ÉÒÔ½èÖúHadoopÆ½Ì¨Êµ
ÏÖº£Á¿Êý¾ÝµÄ´æ´¢,ËùÒÔ,ÏÖÔÚºÜ¶àÊý¾Ý²Ö¿â¼¼Êõ¶¼ÒÑ¾­×ª»¯µ½HadoopÆ½Ì¨È¥ÁË,Hive¾Í
ÊÇ¼Ü¹¹ÔÚHadoopÆ½Ì¨ÉÏµÄÒ»¸öÊý¾Ý²Ö¿â,ÊÇÍê³ÉÅúÁ¿Êý¾Ý´¦ÀíµÄ¡£ËüÖ§³ÖSQLÓï¾ä,¿É
ÒÔÓÃSQLÓï¾äÈ¥Íê³É¸÷ÖÖ·ÖÎö,ËäÈ»Ð´µÄÊÇSQLÓï¾ä,µ«ÊÇHive»á°ÑSQLÓï¾ä×ª»¯ÎªÒ»
¶ÑMapReduce×÷ÒµºóÔÙÈ¥Ö´ÐÐ,ËùÒÔËµHive¾ÍÊÇ»ùÓÚHadoopµÄÒ»¸öÊý¾Ý²Ö¿â¹¤¾ß,ÊÇÎª
¼ò»¯MapReduce±à³Ì¶øÉúµÄ,·Ç³£ÊÊºÏÊý¾Ý²Ö¿âµÄÍ³¼Æ·ÖÎö,Í¨¹ý½âÎöSQL×ª»¯³É
MapReduce,×é³ÉÒ»¸öDAGÀ´Ö´ÐÐ¡£¼òÑÔÖ®,HiveµÄÉè¼ÆÄ¿±ê¾ÍÊÇÓÃ´«Í³SQL²Ù×÷
HadoopÉÏµÄÊý¾Ý,ÈÃÊìÏ¤SQLµÄ³ÌÐòÔ±Ò²»áÊ¹ÓÃHadoop¡£

7.Pig 

Pig(ad-hoc½Å±¾)ÓÉÑÅ»¢¹«Ë¾¿ªÔ´,ÆäÉè¼Æ¶¯»úÊÇÌá¹©Ò»ÖÖ»ùÓÚMapReduceµÄad-hoc 
(¼ÆËãÔÚqueryÊ±·¢Éú)Êý¾Ý·ÖÎö¹¤¾ß,ÊÇÒ»ÖÖ±à³ÌÓïÑÔ¡£Pig¶¨ÒåÁËÒ»ÖÖÊý¾ÝÁ÷ÓïÑÔ¡ª¡ª¡ª 
PigLatin,ËüÊÇMapReduce±à³ÌµÄ¸´ÔÓÐÔµÄ³éÏó,PigÆ½Ì¨°üÀ¨ÔËÐÐ»·¾³ºÍÓÃÓÚ·ÖÎö
HadoopÊý¾Ý¼¯µÄ½Å±¾ÓïÑÔ(PigLatin)¡£Æä±àÒëÆ÷½«PigLatin·­Òë³ÉMapReduc 
³ÌÐòÐò
ÁÐ,½«½Å±¾×ª»»ÎªMapReduceÈÎÎñÔÚHadoopÉÏÖ´ÐÐ,Í¨³£ÓÃÓÚ½øÐÐÀëÏß·ÖÎö¡£¼òµ¥µØËµ, 
Pig¼ò»¯ÁËHadoop³£¼ûµÄ¹¤×÷ÈÎÎñ,ÊÇÊµÏÖÁ÷Êý¾Ý´¦ÀíµÄ,ÓëHiveÓÐËù²»Í¬,ÊôÓÚÇáÁ¿¼¶
µÄ·ÖÎö¡£¿ÉÒÔÔÚHadoopÆ½Ì¨ÉÏ,Í¨¹ýPig×é¼þÐ´³öÀàËÆSQLµÄÓï¾ä,È»ºóÖðÒ»Ö´ÐÐ,Ò²¿É
ÒÔ°ÑPigÐ´³öÀ´µÄ¶àÌõÓï¾äÇ¶Ì×µ½´óÐÍÓ¦ÓÃ³ÌÐòÖÐÖ´ÐÐ,¾ÍÏñSQLÓï¾ä¿ÉÒÔÇ¶Ì×µ½C#ÖÐ
Ö´ÐÐÒ»Ñù,ËùÒÔËüÊÇÒ»¸öÇáÁ¿¼¶µÄ±à³ÌÓïÑÔ¡£Ïà¶ÔÓÚMapReduceÀ´Ëµ,ËüµÄ´úÂë¸ü¼òµ¥,Ëä
È»MapReduceÆÁ±ÎÁË·Ç³£¶àµÄ¸´ÔÓÐÔ,µ«ÊÇËüµÄ±à³ÌÈÔÈ»ÓÐµã¸´ÔÓ,ÄÄÅÂÒ»¸ö¼òµ¥µÄ×÷Òµ
¶¼ÒªÐ´Ò»¸öÍêÕûµÄ´úÂë¶Î,¶øPig²»ÓÃ,¾ÍÏñSQLÓï¾äÒ»Ñù,¿ÉÒÔÐ´Ò»ÌõÖ´ÐÐÒ»Ìõ,ÂíÉÏ¾Í
¿ÉÒÔ³ö½á¹û,ËùÒÔËµºÜ¶à³ÌÐòÔ±¶¼ÔÚÓÃPig,¾ÍÊÇÒòÎªËü±ÈMapReduce±à³ÌÒª¼òµ¥µÃ¶à,Ëü
ÊÇÇáÁ¿¼¶µÄ±à³ÌÓïÑÔ¡£

8.Oozie 

OozieÊÇ×÷ÒµÁ÷µ÷¶ÈÏµÍ³,¼´HadoopµÄ¹¤×÷Á÷¹ÜÀíÏµÍ³,ÓÃÓÚÐ­µ÷¶à¸öMapReduce×÷
ÒµµÄÖ´ÐÐ¡£OozieÄÜ¹»´¦Àí´óÁ¿µÄ¸´ÔÓÊý¾Ý,»ùÓÚÍâ²¿ÊÂ¼þ(°üÀ¨¶¨Ê±ºÍËùÐèÊý¾ÝÊÇ·ñ´æ
ÔÚ)À´¹ÜÀíÖ´ÐÐÈÎÎñ¡£ÏÖÊµÖÐ,ÔÚ½øÐÐÓ¦ÓÃ³ÌÐò¿ª·¢Ê±,Ò»¸öÍêÕûµÄ¹¤×÷¿ÉÄÜÐèÒª°ÑËü·Ö½â
³ÉºÜ¶à¸ö¹¤×÷»·½Ú,ºÍ²»Í¬Ó¦ÓÃ³ÌÐòÈ¥ÅäºÏÍê³ÉÒ»¸ö¹¤×÷,Õâ¸öÊ±ºòÐèÒª¹¤×÷Á÷ÏµÍ³À´¶¨
Òå¡£ÔÚHadoopÆ½Ì¨ÉÏ,ÓÐÒ»¸ö×¨ÃÅµÄ¹¤×÷Á÷¹ÜÀíÏµÍ³¹¤¾ß,¾ÍÊÇOozie¡£

9.ZooKeeper 

ZooKeper(·Ö²¼Ê½Ð­×÷·þÎñ)Ô´×Ô¹È¸è¹«Ë¾µÄChubbyÂÛÎÄ,·¢±íÓÚ2006Äê11ÔÂ, 


54 
´óÊý¾Ý¸ÅÂÛ

ZooKeperÊÇChubbyµÄÊµÏÖ°æ¡£ZooKeperµÄÖ÷ÒªÄ¿±êÊÇ½â¾ö·Ö²¼Ê½»·¾³ÏÂµÄÊý¾Ý¹ÜÀí
ÎÊÌâ,ÈçÍ³Ò»ÃüÃû¡¢×´Ì¬Í¬²½¡¢¼¯Èº¹ÜÀí¡¢ÅäÖÃÍ¬²½µÈ¡£HadoopµÄÐí¶à×é¼þÒÀÀµÓÚ
ZooKeper,ËüÔËÐÐÔÚ¼ÆËã»ú¼¯ÈºÉÏ,ÓÃÓÚ¹ÜÀíHadoop²Ù×÷¡£

ZooKeper¾ÍÊÇ¶¯ÎïÔ°¹ÜÀíÔ±,ËüÊÇÓÃÀ´¹Ü´óÏó(Hadoop)¡¢ÃÛ·ä(Hive)ºÍÐ¡Öí(Pig) 
µÄ¹ÜÀíÔ±,ÊÇÕë¶Ô¹È¸èChubbyµÄÒ»¸ö¿ªÔ´ÊµÏÖ,ÊÇ¸ßÐ§ºÍ¿É¿¿µÄÐ­Í¬¹¤×÷ÏµÍ³¡£
ZooKeperÊÇÌá¹©·Ö²¼Ê½Ð­µ÷Ò»ÖÂÐÔ·þÎñµÄ,ÈçÒ»Ð©·Ö²¼Ê½Ëø»ò¼¯Èº¹ÜÀíµÈ¶¼ÊÇÍ¨¹ý
ZooKeperÊµÏÖµÄ¡£ÔÚHBase¼¯ÈºÖÐÓÐºÜ¶à»úÆ÷,Òª°ÑÄÄ¸ö»úÆ÷Ñ¡³öÀ´×÷Îª¹Ü¼ÒÈ¥¹ÜÀíÆä
ËûµÄ»úÆ÷ÄØ? ²»ÓÃ²ÙÐÄ,ZooKeper»á°ïÄã°ÑËüÑ¡³öÀ´,ËùÒÔËµ,ZooKeperÏàµ±ÓÚÒ»¸ö´ó
¹Ü¼Ò,ºÜ¶àHadoop×é¼þ¶¼ÒÀÀµËü¡£

10.HBase 

HBase¼´·Ö²¼Ê½ÁÐ´æÊý¾Ý¿â,ÊÇ¹¹½¨ÔÚHDFSÖ®ÉÏµÄ·Ç¹ØÏµÐÍ·Ö²¼Ê½Êý¾Ý¿â,ÊÇÃæÏò
ÁÐ´æ´¢µÄÊý¾Ý¿â¡£HDFSÊÇ°´ÕÕË³Ðò½øÐÐÖðÒ»¶ÁÐ´µÄ,¶øHBase²ÉÓÃÁËBigTableµÄÊý¾Ý
Ä£ÐÍ¶Ô´óÁ¿Êý¾Ý½øÐÐ¿ìËÙµÄ¶ÁÐ´,¿ÉÒÔÖ§³Ö¼¸Ê®ÒÚÐÐ¡¢ÉÏ°ÙÍòÁÐÊý¾ÝµÄ³¬´óÐÍÊý¾Ý¿â,Ìá¹©
ÁË¶Ô´ó¹æÄ£Êý¾ÝµÄËæ»ú¡¢ÊµÊ±¶ÁÐ´·ÃÎÊ,Í¬Ê±,HBaseÖÐ±£´æµÄÊý¾Ý¿ÉÒÔÊ¹ÓÃMapReduceÀ´
´¦Àí,Ëü½«Êý¾Ý´æ´¢ºÍ²¢ÐÐ¼ÆËãÍêÃÀµØ½áºÏÔÚÒ»Æð¡£HBase½«ZooKeperÓÃÓÚ×ÔÉíµÄ¹Ü
Àí,ÒÔ±£Ö¤ÆäËùÓÐ×é¼þ´¦ÓÚÔËÐÐÖÐ¡£

11.Flume 

FlumeÊÇ×¨ÃÅÓÃÀ´×öÈÕÖ¾ÊÕ¼¯µÄ,ÊÇÒ»¸ö¸ß¿ÉÓÃ¡¢¸ß¿É¿¿µÄ·Ö²¼Ê½µÄ¡¢º£Á¿ÈÕÖ¾²É¼¯¡¢¾Û
ºÏºÍ´«ÊäµÄÏµÍ³,ÓÃÓÚ´Óµ¥¶ÀµÄ»úÆ÷ÉÏ½«´óÁ¿Êý¾ÝÍ¨¹ý²É¼¯¡¢¾ÛºÏ²¢ÒÆ¶¯µ½HDFSÖÐ¡£Òò
´Ë,Í¨³£ÔÚ×öºÜ¶àÁ÷Ê½Êý¾Ý·ÖÎöµÄÊ±ºò,ÈçÓÃ»§·ÃÎÊ¾©¶«¡¢ÌÔ±¦Ê±ÐÎ³ÉµÄÓÃ»§µã»÷Á÷Êý¾Ý,Õâ
Ð©Êý¾Ý¶¼ÊÇÊµÊ±Éú³ÉµÄ,Èç¹ûÏë¶ÔÕâÐ©ÊµÊ±µÄÁ÷Êý¾Ý½øÐÐÊµÊ±·ÖÎö,¾ÍÐèÒªÓÃFlume¹¤¾ß
À´°ïÃ¦×öÈÕÖ¾Ïà¹ØÊÕ¼¯,ÈçÔÚÃÀÍÅÏµÍ³ÖÐ,¾ÍÊÇ²ÉÓÃFlume¹¤¾ß½øÐÐÈÕÖ¾ÊÕ¼¯¡£

12.Sqoop 

SqoopÊÇÒ»¸öÊý¾ÝÍ¬²½¹¤¾ß,Ö÷ÒªÓÃÀ´ÊµÏÖÔÚ´«Í³Êý¾Ý¿â(Ö¸¹ØÏµÊý¾Ý¿â)ÓëHadoop
Ö®¼äµÄÊý¾Ý´«µÝ¡£´óÊý¾ÝÊ±´ú,ºÜ¶àÔ­À´´«Í³µÄÊý¾Ý¿âËæ×ÅÊý¾ÝÁ¿µÄÔö¼Ó,ÐèÒªÓÃµ½
HadoopÆ½Ì¨ÉÏµÄ¼¼ÊõÈ¥×öÊý¾Ý·ÖÎö,ÕâÊ±,¾ÍÐèÒª°ÑÔ­À´ÕâÐ©¹ØÏµÊý¾Ý¿â(ÈçMySQL ¡¢
OracleµÈ)ÖÐµÄÓÐ¹ØÊý¾ÝÖ±½Óµ¼ÈëHadoopÆ½Ì¨µÄHDFS ¡¢HBase¡¢HiveÖÐµÄÈÎÒâÒ»¸öÀïÃæ, 
¶øÎÞÐëÖØÐÂ±àÐ´³ÌÐò¡£µ±È»,Ò²¿ÉÒÔÊ¹ÓÃSqoop¹¤¾ß°ÑHadoopÉÏµÄÊý¾Ýµ¼Èë¹ØÏµÊý¾Ý¿â
ÖÐ¡£Òò´Ë,Sqoop¹¤¾ß¿ÉÒÔÊµÏÖ´«Í³Êý¾Ý¿âÓëHadoopÖ®¼äÊý¾ÝµÄ×ª»»¡£

13.Ambari 

×î¶¥¶ËµÄÊÇAmbari¹¤¾ß,ËüÊÇÒ»ÖÖ»ùÓÚWebµÄ¹¤¾ß,ÖÂÁ¦ÓÚ¼ò»¯HadoopµÄ¹ÜÀí,ÊÇ
Ò»¸ö¼¯Èº°²×°²¿ÊðµÄ¹¤¾ß,ÊÇHadoop¿ìËÙ²¿Êð¹¤¾ß,Ö§³ÖApacheHadoop¼¯ÈºµÄ´´½¨¡¢¹Ü
ÀíºÍ¼à¿Ø,»á·Ç³£ÖÇÄÜ»¯µØ²¿ÊðºÍ¹ÜÀíÒ»ÕûÌ×HadoopÆ½Ì¨ÉÏµÄ¸÷¸ö×é¼þ¡£


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 55 

3.4 
HadopµÄ°²×°
ÔÚ¿ªÊ¼¾ßÌå°²×°Ö®Ç°,Ê×ÏÈÐèÒªÑ¡ÔñÒ»¸öºÏÊÊµÄ²Ù×÷ÏµÍ³¡£¾¡¹ÜHadoop±¾Éí¿ÉÒÔÔË
ÐÐÔÚLinux¡¢WindowsÒÔ¼°ÆäËûÒ»Ð©UNIXÏµÍ³(ÈçFreBSD ¡¢OpenBSD ¡¢SolarisµÈ)Ö®ÉÏ, 
µ«ÊÇHadoop¹Ù·½ÕæÕýÖ§³ÖµÄ×÷ÒµÆ½Ì¨Ö»ÓÐLinux¡£Õâ¾Íµ¼ÖÂÆäËûÆ½Ì¨ÔÚÔËÐÐHadoop
Ê±,ÍùÍùÐèÒª°²×°ºÜ¶àÆäËûµÄ°üÀ´Ìá¹©Ò»Ð©Linux²Ù×÷ÏµÍ³µÄ¹¦ÄÜ,ÒÔÅäºÏHadoopµÄÖ´
ÐÐ¡£ÕâÀïÑ¡ÔñLinux×÷ÎªÏµÍ³Æ½Ì¨,ÑÝÊ¾ÔÚ¼ÆËã»úÉÏÈçºÎ°²×°Hadoop¡¢ÔËÐÐ³ÌÐò²¢µÃµ½×î
ÖÕ½á¹û¡£µ±È»,ÆäËûÆ½Ì¨ÈÔÈ»¿ÉÒÔ×÷Îª¿ª·¢Æ½Ì¨Ê¹ÓÃ¡£¶ÔÓÚÕýÔÚÊ¹ÓÃWindows²Ù×÷ÏµÍ³
µÄÓÃ»§,¿ÉÒÔÍ¨¹ýÔÚWindows²Ù×÷ÏµÍ³ÖÐ°²×°LinuxÐéÄâ»úµÄ·½Ê½Íê³ÉÊµÑé¡£ÔÚLinux 
·¢ÐÐ°æµÄÑ¡ÔñÉÏ,ÇãÏòÓÚÊ¹ÓÃÆóÒµ¼¶µÄ¡¢ÎÈ¶¨µÄ²Ù×÷ÏµÍ³×÷ÎªÊµÑéµÄÏµÍ³»·¾³,Í¬Ê±,¿¼ÂÇµ½
Ò×ÓÃÐÔÒÔ¼°ÊÇ·ñÃâ·ÑµÈ·½ÃæµÄÎÊÌâ,×îÖÕÑ¡ÔñÃâ·ÑµÄUbuntu·¢ÐÐ°æ×÷ÎªÍÆ¼öµÄ²Ù×÷ÏµÍ³¡£

3.1 
°²×°Ç°µÄ×¼±¸
4.
1.Linux°æ±¾µÄ¿¼ÂÇ
µ±Ç°Linux·¢ÐÐ°æ±È½Ï¶à,³£ÓÃµÄÓÐUbuntu¡¢CentOS ¡¢LinuxMintºÍPCLinuxOSµÈ
¶¼ÊÇËüµÄÖ÷Á÷°æ±¾¡£ÎªÁËÑ§Ï°ÐèÒª,Ñ¡Ôñ×îÒ×Ê¹ÓÃµÄUbuntu×÷ÎªHadoopµÄ²Ù×÷ÏµÍ³¡£
´ËÍâ,ÕâÀï»¹Òª¿¼ÂÇ°²×°32Î»»¹ÊÇ64Î»,Èç¹û»úÆ÷ÄÚ´æµÍÓÚ2GB,½¨Òé°²×°32Î»µÄ
LinuxÏµÍ³¡£

2.°²×°Ë«ÏµÍ³»¹ÊÇ°²×°ÐéÄâ»ú
¼ÆËã»úÅäÖÃ±È½ÏµÍ¡¢ÄÚ´æÐ¡ÓÚ4GB,½¨Òé°²×°Ë«²Ù×÷ÏµÍ³,Ò»°ãÏÈ°²×°WindowsÏµÍ³
,
ÔÙ°²×°Ubuntu
¡£


¼ÆËã»úÅäÖÃ±È½ÏºÃ¡¢ÄÚ´æÔÚ4GBÒÔÉÏ,¿ÉÒÔÑ¡Ôñ°²×°ÐéÄâ»ú¡£ÔÚÅäÖÃµÍµÄ¼ÆËã»úÉÏ
ÔË
ÐÐLinuxÐéÄâ»ú,ÔËÐÐËÙ¶ÈºÜÂý,Ò»°ãµÄÑ§Éú»úºÍÑ§Ð£»ú·¿µÄ¼ÆËã»ú,Ó¦Ñ¡Ôñ°²×°Ë«²Ù
×÷
ÏµÍ³
¡£


3.Hadoop°²×°Ñ¡Ôñ
HadoopÖ÷ÒªÓÐÈçÏÂ3ÖÖ°²×°Ä£Ê½¡£

(1)µ¥»úÄ£Ê½,ÊÇHadoopµÄÄ¬ÈÏÄ£Ê½,ÍêÈ«ÔËÐÐÔÚ±¾µØ¼ÆËã»úÉÏ,²»ÊÇ·Ö²¼Ê½Ä£Ê½,ÎÞ
Ðë½øÐÐÆäËûÅäÖÃ¡£¸ÃÄ£Ê½Ö÷ÒªÓÃÓÚ¿ª·¢¡¢µ÷ÊÔMapReduce³ÌÐòµÄÓ¦ÓÃÂß¼­¡£
(2)Î±·Ö²¼Ê½Ä£Ê½,ÊÇÖ¸ÔÚÒ»Ì¨»úÆ÷ÉÏÄ£ÄâÒ»¸öÐ¡µÄ¼¯ÈºÀ´ÔËÐÐHadoop,µ«ÊÇ¼¯ÈºÖÐ
Ö»ÓÐÒ»¸ö½Úµã,¸Ã½Úµã¼È×÷ÎªÃû³Æ½Úµã(NameNode),Ò²×÷ÎªÊý¾Ý½Úµã(DataNode),Í¬Ê±,
¶Á
oest.lºÍhdsst.


È¡µÄÊÇHDFSÖÐµÄÎÄ¼þ¡£°²×°Ê±,ÐèÒªÏÈÐÞ¸Äcr-iexmf-iexmlÁ½¸öÅäÖÃÎÄ
¼þ,Hadoop¿ÉÒÔÔÚµ¥½ÚµãÉÏÒÔÎ±·Ö²¼Ê½µÄ·½Ê½ÔËÐÐ¡£

(3)·Ö²¼Ê½Ä£Ê½:ÊµÏÖÍêÈ«·Ö²¼Ê½µÄ°²×°,Ê¹ÓÃ¶à¸ö½Úµã¹¹³É¼¯Èº»·¾³À´ÔËÐÐ
Hadoop¡£NameNodeºÍDataNodeÊÇ·Ö²¼ÔÚ²»Í¬»úÆ÷ÉÏµÄ,ÕâÊÇÕæÕýµÄ·Ö²¼Ê½¡£
Ã¿ÖÖÄ£Ê½¶¼ÓÐÆäÓÅµãºÍÈ±µã¡£ÍêÈ«·Ö²¼Ê½Ä£Ê½ÏÔÈ»ÊÇÎ¨Ò»Ò»ÖÖ¿ÉÒÔ½«HadoopÀ©Õ¹µ½


56 
´óÊý¾Ý¸ÅÂÛ

»úÆ÷¼¯ÈºµÄ·½Ê½,µ«ËüÐèÒª¸ü¶àµÄÅäÖÃ¹¤×÷,¸ü²»ÓÃÌáËùÐèÒªµÄ»úÆ÷¼¯Èº¡£µ¥»ú»òÎ±·Ö²¼Ê½
Ä£Ê½µÄÉèÖÃ¹¤×÷ÊÇ×î¼òµ¥µÄ,µ«ËüÓëÓÃ»§µÄ½»»¥·½Ê½²»Í¬ÓÚÈ«·Ö²¼Ê½Ä£Ê½µÄ½»»¥·½Ê½¡£

4.LinuxµÄÒ»Ð©³£Ê¶²Ù×÷
½ÓÏÂÀ´½éÉÜLinuxµÄ¼¸Ïî³£Ê¶²Ù×÷¡£
(1)Shel 
ÊÇÒ»¸öÃüÁî½âÎöÆ÷,Ëü½ÓÊÕÓÃ»§ÃüÁî,È»ºóµ÷ÓÃÏàÓ¦µÄÓ¦ÓÃ³ÌÐò,ÀàËÆÓÚDOS 
ÏÂµÄcommandÃüÁî¡£
(2)sudoÃüÁî,ÊÇUbuntuÖÐÒ»ÖÖÈ¨ÏÞ¹ÜÀí»úÖÆ,¹ÜÀíÔ±¿ÉÒÔÊÚÈ¨¸øÒ»Ð©ÆÕÍ¨ÓÃ»§È¥Ö´
ÐÐÒ»Ð©ÐèÒªrootÈ¨ÏÞÖ´ÐÐµÄ²Ù×÷¡£µ±Ê¹ÓÃsudoÃüÁîÊ±,ÐèÒªÊäÈëµ±Ç°ÓÃ»§µÄÃÜÂë¡£

(3)ÊäÈëÃÜÂë,ÔÚLinuxµÄÖÕ¶ËÖÐÊäÈëÃÜÂë,ÖÕ¶Ë²»»áÏÔÊ¾ÈÎºÎµ±Ç°ÊäÈëµÄÃÜÂë,Ò²²»
»áÌáÊ¾ÒÑ¾­ÊäÈëÁË¶àÉÙ×Ö·ûÃÜÂë¡£Òò´Ë²»ÒªÎóÒÔÎª¼üÅÌÃ»ÓÐÏìÓ¦¡£
3.2 
°²×°VitaBx
4.rulo

VirtualBoxÊÇÓÉµÂ¹úInnotek¹«Ë¾¿ª·¢,ÓÉSunMicrosystems¹«Ë¾³öÆ·µÄÈí¼þ,Ê¹ÓÃ
Qt±àÐ´,ÔÚSun±»OracleÊÕ¹ººóÕýÊ½¸üÃû³ÉOracleVMVirtualBox¡£Ä¿Ç°,³£ÓÃµÄÐéÄâ»ú
Èí¼þÓÐVirtualBoxºÍVMware,VirtualBoxÊÇÒ»¿î¿ªÔ´µÄÐéÄâ»úÈí¼þ,¶øVMwareÊÇÉÌÒµ
Èí¼þ,ÐèÒª¸¶·Ñ¡£´ËÍâ,VirtualBoxºÅ³ÆÊÇÃâ·ÑÐéÄâ»úÈí¼þÖÐ×îÇ¿µÄ,ÓµÓÐ·á¸»µÄÌØÉ«ºÍ³ö
É«µÄÐÔÄÜ,ÔÚÐéÄâ°²×°ÖÐ³ÌÐòÌå»ýÐ¡¡£Ïà¶ÔÓÚÍ¬Àà²úÆ·VMware400~500MBµÄÌå»ý, 
VirtualBoxÖ»ÓÐÔ¼120MB,·Ç³£Ð¡ÇÉ¡£VirtualBoxµÄ¹¦ÄÜ¼òµ¥ÊµÓÃ,¿ËÂ¡ÏµÍ³¡¢¹²ÏíÎÄ¼þ¡¢ÐéÄâ
»¯µÈ¹¦ÄÜÒ»Ñù²»È±¡£Òò´Ë,±¾ÊéÑ¡ÓÃµÄÊÇVirtualBoxÈí¼þ,VirtualBoxÏÂÔØµØÖ·Îªhtp//

s:
www.itabx.rg/, -rulonosÉÏ¡£
vrulooÈçÍ¼36ËùÊ¾¡£ÏÂÔØVitaBxÐéÄâ»úÈí¼þ°²×°ÔÚWidw


Í¼3-
6 
VirtualBoxÍøÕ¾

È»ºó,µ¥»÷Down0,»áÌø×ªµ½ÈçÍ¼37ËùÊ¾µÄÒ³Ãæ¡£ÏÂÔØÍ¼37ÖÐ±ê
×¢µÄÁ½¸ö°ü(Ò»¸öÊÇVirtualBox°²×°°ü,ÁíÒ»¸öÊÇVirtualBoxÀ©Õ¹°ü),°²×°°ü¸ù¾Ý¼ÆËã»ú
µÄ²Ù×÷ÏµÍ³ÏÂÔØºÏÊÊµÄ°æ±¾,°²×°Â·¾¶½¨Òé²»Ñ¡CÅÌ¡£

ÕâÀïÐèÒªÌØ±ð×¢ÒâµÄÊÇ,Èç¹û°²×°µÄÊÇ64Î»µÄUbuntuÏµÍ³,ÔòÔÚ°²×°VirtualBoxÇ°, 
Òª½øBIOS¿ªÆôCPUµÄÐéÄâ»¯,½«Intel(R)VirtualizationTechnologyÑ¡ÏîÉèÖÃÎª

loadVirtualBox6.-


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 57 


Í¼3-
7 
VirtualBoxÏÂÔØÒ³Ãæ

Enabled,ÕâÑù¾Í¿ªÆôÁËÐéÄâ»¯¹¦ÄÜ,ÈçÍ¼3-8ËùÊ¾,·ñÔò,ÔÚÐéÄâ»úÖÐÕÒ²»µ½64Î»
µÄ
Ubuntu¡£Èç¹û°²×°Ê§°Ü,ÐèÒª¿¼ÂÇ°²×°¼ÆËã»úµÄCPUÊÇ·ñÖ§³ÖÐéÄâ»¯,¿ÉÒÔÓÃSecurAble


Èí¼þ¶ÔCPU½øÐÐ²âÊÔ¡£


Í¼3-
8 
CPU 
ÐéÄâ»¯ÉèÖÃ

3.4.3 
°²×°Linux·¢ÐÐ°æUbuntu 
UbuntuÊÇÒ»¸ö»ùÓÚDebianµÄGNU/Linux²Ù×÷ÏµÍ³,Ö§³ÖX86 ¡¢64ÒÔ¼°PPC¼Ü¹¹¡£
UbuntuÃ¿¸ô6¸öÔÂ·¢²¼Ò»¸ö°æ±¾,¼´Ã¿ÄêµÄ4ÔÂºÍ10ÔÂ¡£Ubuntu¶ÔÓÚÐÂÊÖÊÇ±È½ÏÓÑºÃ
µÄÒ»¸öLinux·¢ÐÐ°æ¡£Ç°ÃæËµµ½LinuxµÄ·¢ÐÐ°æ±¾±È½Ï¶à,±¾Êé°²×°Linux·¢ÐÐ°æ
UbututuÏÂÔØµØÖ·Îªhs:uutcownod/dstp,¿ÉÒÔÏÂÔØ

nu,Ubntp//www.bnu.om/dlaekoUbut14.4.rulBoxÉÏ°²×°ÈÎÒâ

nu04»òÕßÆäËû°æ±¾µÄ¾µÏñÎÄ¼þ¡£ÒªÏÈÔÚ3.2½ÚÖÐ×°ºÃµÄVita
Ò»¸öÐéÄâ»ú,È»ºóÔÚÕâ¸öÐéÄâ»úÉÏ°²×°LinuxÏµÍ³,¾ßÌå°²×°²½ÖèÈçÏÂ¡£

1.°²×°Ò»¸öÃûÎªUbuntuµÄÐéÄâ»ú
µÚ1²½,ÔÚWindowsÏµÍ³ÖÐ,´ò¿ªVirtualBoxÈí¼þ,ÔÚµ¯³öµÄVirtualBox¹ÜÀíÆ÷ÖÐµ¥
»÷¡°ÐÂ½¨¡±°´Å¥,ÈçÍ¼3-9ËùÊ¾,´´½¨Ò»¸öÐéÄâ»ú¡£

µÚ2²½,ÔÚµ¯³öµÄ¡°ÐÂ½¨ÐéÄâµçÄÔ¡±´°¿ÚÖÐ(¼ûÍ¼3-10), 
¸øÐéÄâ»úÃüÃûÎªUbuntu,È»ºóÔÚ¡°ÀàÐÍ¡±ÏÂÀ­¿òÖÐÑ¡Ôñ
Linux¡£ÐèÒª×¢ÒâµÄÊÇ,Èç¹ûÖ®Ç°Ñ¡Ôñ²Ù×÷ÏµÍ³µÄ°æ±¾Îª32Î»
UbuntuÏµÍ³,ÔòÔÚ¡°°æ±¾¡±ÏÂÀ­¿òÖÐÑ¡ÔñUbuntu(32bit)¡£Í¼3-
9 
VirtualBox¹ÜÀíÆ÷½çÃæ



58 
´óÊý¾Ý¸ÅÂÛ

Èç¹ûÖ®Ç°Ñ¡Ôñ²Ù×÷ÏµÍ³µÄ°æ±¾Îª64 Î»UbuntuÏµÍ³,ÔòÔÚ¡°°æ±¾¡±ÏÂÀ­¿òÖÐÑ¡ÔñUbuntu 
(64bit)¡£Ñ¡ÔñÐéÄâ»ú¡°ÄÚ´æ´óÐ¡¡±,Èç¹û¼ÆËã»ú±¾ÉíÄÚ´æÎª4GB µÄ»°,¿ÉÒÔÉèÖÃÐéÄâ»úÄÚ´æ
Îª1GB ×óÓÒ,Èç¹û¼ÆËã»ú±¾ÉíÄÚ´æÎª8GB,¿ÉÒÔÉèÖÃÐéÄâ»úÄÚ´æÎª3GB ×óÓÒ¡£Ò»°ãÇé¿ö
ÏÂ,Èç¹ûÐéÄâ»úÓÐ2GB ÒÔÉÏÄÚ´æ,UbuntuÏµÍ³»áÔËÐÐ±È½ÏÁ÷³©¡£ÕâÀïÉèÖÃÐéÄâ»úµÄÄÚ´æÎª
2048MB,È»ºóµ¥»÷¡°ÏÂÒ»²½¡±°´Å¥¡£


Í¼3-10 
VirtualBoxÐÂ½¨ÐéÄâ»ú

µÚ3²½,ÔÚ¡°ÐÂ½¨ÐéÄâµçÄÔ¡±´°¿ÚÖÐ,Ñ¡Ôñ¡°ÏÖÔÚ´´½¨ÐéÄâÓ²ÅÌ¡±Ñ¡Ïî,È»ºóÑ¡ÔñÐéÄâÓ²ÅÌ
ÎÄ¼þÀàÐÍÎª¡°VDI(VirtualBox´ÅÅÌÓ³Ïñ),(¡±) ÈçÍ¼3-11 ËùÊ¾¡£È»ºó,µ¥»÷¡°ÏÂÒ»²½¡±°´Å¥¡£


Í¼3-11 
´´½¨ÐéÄâ»úÓ²ÅÌ

µÚ4²½,ÔÚ¡°´´½¨ÐéÄâÓ²ÅÌ¡±´°¿ÚÖÐÉèÖÃÐéÄâÓ²ÅÌµÄ´æ´¢·½Ê½,ÐéÄâÓ²ÅÌÄ¬ÈÏÑ¡Ôñ¡°¶¯Ì¬
·ÖÅä¡±,ÈçÍ¼3-12 ËùÊ¾¡£È»ºó,µ¥»÷¡°ÏÂÒ»²½¡±°´Å¥¡£

µÚ5²½,Ñ¡ÔñÎÄ¼þ´æ´¢µÄÎ»ÖÃºÍÈÝÁ¿´óÐ¡(Ä¬ÈÏ´óÐ¡Îª10GB), ÈçÍ¼3-13 ËùÊ¾¡£ÕâÀï¿É
ÒÔ¸ù¾ÝÐèÒªÉèÖÃÎÄ¼þ´æ´¢Î»ÖÃºÍ´æ´¢ÎÄ¼þµÄÈÝÁ¿´óÐ¡,Èç¹û¼ÆËã»úÅäÖÃ½ÏºÃ,½¨ÒéÉèÖÃ
20GB ×óÓÒ¡£È»ºó,µ¥»÷¡°´´½¨¡±°´Å¥¡£ÕâÊ±,¾Í´´½¨ºÃÁËÒ»¸öÃûÎªUbuntuµÄÐéÄâ»ú¡£


µÚ3ÕÂ´óÊý¾Ý¼Ü¹¹ÓëHadoop 59 


Í¼3-12 
Ñ¡ÔñÐéÄâÓ²ÅÌ¶¯Ì¬·ÖÅä


Í¼3-13 
ÎÄ¼þÎ»ÖÃºÍ´óÐ¡

2. 
ÔÚÃûÎªUbuntuµÄÐéÄâ»úÉÏ°²×°LinuxÏµÍ³
Í¨¹ýÉÏÃæµÄ5¸ö²½Öè,¾Í³É¹¦´´½¨ÁËÒ»¸öÃûÎªUbuntuµÄÐéÄâ»ú¡£½ÓÏÂÀ´ÔÚÕâ¸öÐéÄâ
»úÉÏ°²×°LinuxÏµÍ³,¾ßÌå´´½¨·½·¨ÈçÏÂ¡£

ÔÚÈçÍ¼3-14 ËùÊ¾µÄ½çÃæÉÏµ¥»÷¡°ÉèÖÃ¡±°´Å¥,µ¯³ö
¡°Ubuntu-ÉèÖÃ¡±´°¿Ú,Ñ¡Ôñ¡°´æ´¢¡±,ÔÚ¡°´æ´¢½éÖÊ¡±ÖÐÑ¡Ôñ¡°Ã»ÓÐ
ÅÌÆ¬¡±,È»ºó,ÔÚ¡°ÊôÐÔ¡±ÖÐÑ¡Ôñ¡°Ñ¡ÔñÒ»¸öÐéÄâ¹âÅÌÎÄ¼þ¡±ÃüÁî, 
ÔÚµ¯³öµÄ´°¿ÚÖÐÕÒµ½ÒÑ¾­ÏÂÔØµÄUbuntu¾µÏñÎÄ¼þ,ÈçÍ¼3-15 
ËùÊ¾¡£µ¥µã»÷OK °´Å¥,µ¯³ö¡°°²×°UbuntuKylin¡±½çÃæ,Èç
Í¼3-16 ËùÊ¾¡£ÓïÑÔÑ¡Ôñ¡°ÖÐÎÄ(¼òÌå)¡±,È»ºóµ¥»÷¡°°²×°Ubuntu Í¼3-14 
ÐéÄâ»úÉèÖÃ
Kylin¡±°´Å¥¡£½ÓÏÂÀ´½øÈëUbuntuÏµÍ³µÄ°²×°½çÃæ,°²×°Ê±, 
Ö»ÐèÒª°´ÕÕÌáÊ¾,½øÐÐÒ»Ð©ÀàËÆ´´½¨µÇÂ¼ÓÃ»§Ö®Àà¼òµ¥µÄÉèÖÃ,¾Í¿ÉÒÔ°²×°³É¹¦¡£ÖÁ´Ë,¾Í
³É¹¦ÔÚÒ»¸öÃûÎªUbuntuÐéÄâ»úÉÏ°²×°ÁËLinuxÏµÍ³¡£

UbuntuÏµÍ³°²×°³É¹¦ºó,ÐèÒªÖØÆôÐéÄâ»úÏµÍ³,¶ø²»ÊÇWindowsÏµÍ³,¶ÔWindowsÏµ
Í³¶øÑÔ,°²×°µÄÐéÄâ»úÖ»Ïàµ±ÓÚÒ»¸öÈí¼þ¡£ÒòÎªÊÇÔÚWindowsÉÏÍ¨¹ýÐéÄâ»ú°²×°µÄLinux 
ÏµÍ³,ËùÒÔ,ÏÂ´ÎÖØÐÂµÇÂ¼LinuxÏµÍ³Ê±,ÐèÒªÏÈÔËÐÐVirtualBox,µ¥»÷Í¼3-14 ÖÐµÄ¡°Æô¶¯¡±