前言
时间回到2010年,笔者刚刚加入IBM SPSS Modeler的研发团队,从此开始了笔者在人工智能领域的职业生涯。转眼间,这段旅程已经持续了十五年。这十五年里,人工智能的发展波澜壮阔,笔者有幸站在科技的潮头,见证了3次极具意义的浪潮。每次浪潮都代表了人类对于智能的探索迈入了新的阶段,每次浪潮也深刻地改变了科技的边界,社会的面貌,以及我们的日常生活。
在笔者的职业生涯中,第1次人工智能浪潮可以追溯到卷积神经网络的崛起。这一波浪潮最具代表性的事件,也就是深度学习在计算机视觉领域的突破性进展。从2012年AlexNet在ImageNet比赛上的惊艳表现开始,计算机视觉得以迅猛发展,神经网络在图像识别、物体检测、人脸识别等领域逐渐超过了人类的表现。可以说,卷积神经网络让计算机具备了“看”的能力,得以从数亿像素中理解出形状和内容。那一时期,视觉任务相对容易取得突破,这在一定程度上归功于图像本身所包含的直观且自成一体的信息。就像一个三岁小孩能够通过图像辨别出水果、动物、人物一样,计算机在有了强大的视觉模型之后也能通过学习海量的图片,较为准确地判断图像中包含了什么。
然而,语言是另外一个层次的挑战。语言是人类社会最自然的沟通工具,却充满了歧义和复杂的语境。一句话中的每个词汇都可能包含多重含义,需要结合上下文乃至社会背景去理解,尤其是在日常交流中,隐含的讽刺、幽默,甚至体察情绪的能力远远超过一个刚学会说话的孩子。这就意味着,语言理解和生成任务对计算机来讲要比视觉更具挑战。
这就带来了第2次人工智能浪潮: 基于Transformer的BERT预训练模型的出现。BERT模型通过利用大量语料和创新性的训练方法(例如前后句判断和完形填空式的掩码训练)让模型逐渐学会理解语义和语境。这一阶段,基于Transformer架构的模型使自然语言处理实现了跨越式的发展。与之前的循环神经网络相比,Transformer显著地提高了训练效率,通过自注意力机制,不仅能并行处理序列数据,还能在长句中抓住远距离词语之间的关联。BERT的出现使NLP各项任务达到了前所未有的高度——机器能够理解段落、回答问题、生成摘要,并且通过预训练与下游任务微调的结合方式,有效地解决了许多工程应用中的问题。
然后我们迎来了第3次浪潮,这一浪潮就是当前的大模型革命。GPT系列的出现,尤其是GPT3的出现和ChatGPT的广泛传播,让人工智能不再局限于特定领域,而是成为全社会的讨论热点。GPT3不仅是一种模型,它的能力和表现让我们重新思考人与机器之间的互动模式。通过自然语言,GPT3具备了与人类进行复杂对话、进行推理、提供创意建议的能力,ChatGPT的出现更是掀起了一场关于人工智能将如何改变社会的全民讨论。这是我们朝向通用人工智能迈出的重要一步,各行各业都在思考大模型将如何彻底变革其生产模式和交互方式。
大模型的崛起带来了前所未有的理解、推理、生成的通用能力,也改变了人类与机器的交互方式。在这个大模型的时代,人与机器之间的界限变得越来越模糊,机器不再只是简单地接受命令,它开始具备理解上下文、推测人类意图,甚至具有一定创造力的能力。这种变革不仅是技术上的突破,更是一次对于人类社会运作方式的重新定义。
笔者深感非常幸运,能够处在这样一个激动人心的时代。人工智能的大浪潮,既推动了时代的进步,也让我们这些从业者成为这场伟大变革的亲历者。笔者感受到的,不只是对于技术进步的震撼,更是对于未来无限可能性的憧憬。
本书旨在和读者一起探索大模型的原理、发展和应用,笔者希望通过本书,能够帮助更多的读者理解大模型背后的技术,感受到它所带来的改变。无论你是科技爱好者,还是从事其他领域的专业人士,笔者相信你都能在这场变革中找到属于自己的启发和机遇。
希望我们能够共同见证大模型时代的到来,也希望我们能够携手探索,用大模型技术去改变我们的生活,让人工智能成为我们日常的助手、伙伴,甚至灵感的源泉。让我们一起迎接这个充满希望和挑战的未来。
资源下载提示
素材(源码)等资源: 扫描目录上方的二维码下载。
视频等资源: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的二维码,可以在线学习。
笔者的阅历有限,书中难免存在疏漏,希望读者热心指正,在此表示感谢。
薛鹏
2025年5月于西安