大模型核心技术与应用(微课视频版)
"十五年经验资深工程师带你了解大模型的来龙去脉 配套283分钟视频讲解,系统讲解从大模型原理到大模型应用构建 "

作者:薛鹏

丛书名:跟我一起学人工智能

定价:79元

印次:1-1

ISBN:9787302695776

出版日期:2025.07.01

印刷日期:2025.07.01

图书责编:赵佳霓

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书从大型模型的结构讲起,让读者了解大型模型的内部实现原理,然后讲解如何在特定任务下对大型模型进行预训练、有监督的微调,以及进行强化学习。通过对模型采用不同方法的训练,持续改进模型在特定任务上的性能。最后,本书将与读者一起探讨如何利用大型模型开发大模型时代的智能应用。 本书共9章,第1章讲解大型模型发展的历史及其带来的变革。第2章深入讲解大型模型内部结构的演进。第3章会尝试自己运行一个大模型。第4章介绍大型模型对模型训练和推理过程中带来的技术挑战和解决办法。第5章讲解如何进行大型模型的预训练以获取大模型的基本能力。第6章讲解如何对大模型进行有监督的微调,使大型模型输出与人类意图对齐。第7章讲解如何通过强化学习进一步提升大型模型的表现。第8章讲解如何对大模型进行评估。第9章讲解如何利用大模型构建智能应用。 本书适合有一定深度学习基础的读者,帮助他们从原理到应用,快速了解大型模型的原理、训练方法,并利用大型模型进行智能应用的开发。 "

薛鹏,深圳力维智联技术有限公司人工智能首席科学家,上海迥灵信息技术有限公司CTO,原IBM AI产品Tech Lead。负责研发多款AI产品,十五年人工智能技术应用经验。目前致力于大模型平台产品研发和大模型技术行业应用。

前言 时间回到2010年,笔者刚刚加入IBM SPSS Modeler的研发团队,从此开始了笔者在人工智能领域的职业生涯。转眼间,这段旅程已经持续了十五年。这十五年里,人工智能的发展波澜壮阔,笔者有幸站在科技的潮头,见证了3次极具意义的浪潮。每次浪潮都代表了人类对于智能的探索迈入了新的阶段,每次浪潮也深刻地改变了科技的边界,社会的面貌,以及我们的日常生活。 在笔者的职业生涯中,第1次人工智能浪潮可以追溯到卷积神经网络的崛起。这一波浪潮最具代表性的事件,也就是深度学习在计算机视觉领域的突破性进展。从2012年AlexNet在ImageNet比赛上的惊艳表现开始,计算机视觉得以迅猛发展,神经网络在图像识别、物体检测、人脸识别等领域逐渐超过了人类的表现。可以说,卷积神经网络让计算机具备了“看”的能力,得以从数亿像素中理解出形状和内容。那一时期,视觉任务相对容易取得突破,这在一定程度上归功于图像本身所包含的直观且自成一体的信息。就像一个三岁小孩能够通过图像辨别出水果、动物、人物一样,计算机在有了强大的视觉模型之后也能通过学习海量的图片,较为准确地判断图像中包含了什么。 然而,语言是另外一个层次的挑战。语言是人类社会最自然的沟通工具,却充满了歧义和复杂的语境。一句话中的每个词汇都可能包含多重含义,需要结合上下文乃至社会背景去理解,尤其是在日常交流中,隐含的讽刺、幽默,甚至体察情绪的能力远远超过一个刚学会说话的孩子。这就意味着,语言理解和生成任务对计算机来讲要比视觉更具挑战。 这就带来了第2次人工智能浪潮: 基于Transformer的BERT预训练模型...

目录
荐语
查看详情 查看详情

目录

本书源码

第1章大模型时代

1.1大模型的发展历史

1.1.1注意力机制的发扬光大

1.1.2从GPT到InstructGPT

1.1.3ChatGPT惊艳登场

1.1.4全球首个AI程序员诞生

1.2大模型时代的新范式

第2章深入了解大模型(59min)

2.1Transformer横空出世

2.1.1词典生成

2.1.2词嵌入

2.1.3自注意力机制

2.1.4层归一化

2.1.5残差连接

2.1.6前馈模块

2.1.7Transformer的整体架构

2.1.8位置编码

2.1.9解码器的输入输出

2.1.10掩码机制

2.1.11交叉注意力

2.1.12线性分类头

2.2GPT

2.2.1GPT1

2.2.2GPT2

2.2.3GPT3

2.2.4GPT4

2.3OpenAI o1

2.4Llama

2.4.1Llama1

2.4.2Llama2

2.4.3Llama3

第3章运行第1个大模型

3.1HuggingFace介绍

3.2下载大模型

3.3运行大模型

3.4HuggingFace里的Tokenizer

3.5HuggingFace里的模型

3.5.1创建和保存模型

3.5.2控制大模型的输出

第4章大模型带来的技术挑战(127min)

4.1GPU的工作原理

... 查看详情

本书深入浅出地介绍了人工智能和大模型的核心概念和算法,以及这些技术是如何发明和发展的。通过阅读本书,读者能够理解大模型背后的技术,感受到它所带来的改变。


查看详情