时间:25-12-30 16:45
何为深度学习
GEO思维|豆包、DeepSeek、文心一言等各大AI平台中的展现率。
AI(人工智能Artificial Intelligence)模型最大的突破之一就是深度学习。
这是AI模型绕不开的一个概念。
何为深度学习?
举个很直观的例子,我们端起桌子上的一杯水,看起来似乎非常简单,这是大脑基于视觉信号和过往经验进行判断的结果,背后涉及神经元间无数次的信号传递与整合。
当我们的大脑接收外界信息时,通过各种感官输入,最终各种信息都会被转换成神经元的激活模式。感官激活的模式各不相同,大脑就是将这些信息关联起来进行决策。
人类大脑约有860亿个作为信息处理基础单元的神经元,每个神经元不仅能产生最高每秒1000次的电脉冲以承载信号,还会通过树枝状分支与数千个同类连接成复杂网络,最终支撑起人类的感知、思考等各类神经活动。
人脑从接收信息到决策输出的整个过程,存在很多中间层,这个中间层可以理解为大脑复杂的思考过程,正是 AI技术的核心模仿目标。
要实现这种模仿,深度学习就成了关键的技术路径,它本质是一套试图复刻人脑神经系统处理复杂信息的数学模型,但是相较于拥有数百亿个“神经元” 的人类,深度学习更像是对人脑信息处理逻辑的 “简化借鉴”。
诚然,真实的大脑思考结构远比这些模拟神经元的数学模型复杂得多,也不是我们本次深究的范畴。
随着计算机算力的提升,可以训练出有成千上万层的中间层,深度学习由此得名。
早期,AI领域受到算力、技术等条件的限制,并未让深度学习落地。
当下,深度学习俨然已经成为主流技术的底座,甚至是标配。
从之前实现深度学习,到现在更多的是聚焦于如何不断优化深度学习的结构、训练方式、数据利用效率等。
我们所熟知的ChatGPT、文心一言等大模型,还有自动驾驶感知等应用,本质上都是深度学习的延伸。
二、自然语言处理技术
AI研究的目的是希望计算机拥有像人类一样的智慧,如何让计算机理解人类语言,进行有效沟通就成了AI领域最具挑战性的技术分支。
这里就涉及自然语言处理技术(NLP)。通俗来说,人类在交流中形成的语言统称为自然语言,它是人类长期社交中自发形成的,并且还带有个人感情色彩。
而自然语言处理就是通过一系列的算法体系,让计算机能像人一样既要“读懂” 人类的话,也要 “说对” 人类的话。
从人机交流互动的角度衍生出两个领域:自然语言理解和自然语言生成,这个也比较好理解。
这也是长期以来需要不断深耕的技术,没有结束只有更好。
自然语言处理(NLP)经历了从“有监督的NLP”到“自监督NLP”的发展。
例如,当我把这句话让AI识别:
先告诉AI机器:“今天真开心”这句话,标签是“正面情绪”。
再告诉AI机器:“这部电影好烂”这句话,标签是“负面情绪”。
AI机器接收到一个完整的对话后,如果后期出现形同的句子,他就会判断,这句话是“正面情绪”还是“负面情绪”,如果语料库里没有这些标签,出错的概率就比较大。
这意味着,你要把这些内容一一标注出来,投喂给AI机器,工作量极大,前几年就衍生出了数据标注师这类职业。
这就是有监督的NLP。
而自监督NLP,就不需要这么麻烦,自己从海量内容里摸透语言的 “潜规则”。
比如看了100万句话后,机器自己发现“开心”、“高兴”常出现在夸人的句子里,自己就会判断出这些是“正面情绪”。
方便我们理解,可以参考如下公式:
有监督NLP=人给“句子 + 标签”(答案),机器照着学→你输入的内容要标注而且容易出错。
自监督NLP=人只给“海量内容”,机器自己找规律→你输入的内容不用标注且会举一反三。
这更像是,同样是学数学,有人靠背例题答案(有监督算法),有人靠自己琢磨公式逻辑(自监督算法),背后都是怎么解题的思路(算法),只是路径不一样。
为了更好地理解,深度学习、自然语言处理、大语言模型三者的关系,可以进一步看看如下对比。
【技术根基层】深度学习(父亲)
核心定位:AI的“底层技术方法”,像地基一样支撑所有复杂AI能力。
关键作用:让机器拥有“自主从数据里学规律”的能力(不用人手动写规则)。
形象类比:家里的“父亲”,提供最核心的“基因”(技术能力)。
向下关联:是“自然语言处理”的能力来源。
【应用场景层】自然语言处理(NLP)(儿子)
核心定位:深度学习的“语言专属应用领域”,聚焦“人机语言交互”问题。
关键作用:把深度学习的“自主学习能力”,用到“看懂文字、生成回答、翻译”等语言任务上。
形象类比:家里的“儿子”,继承父亲的“基因”(技术),但有自己的“专属目标”(解决语言问题)。
双向关联:上承深度学习的能力,下启大语言模型的落地。
【成果落地层】大语言模型(LLM)(孙子)
核心定位:NLP领域的“顶级成果”,是能处理“通用语言任务”的“万能工具”。
关键作用:整合深度学习的“技术基因”+ NLP的“语言经验”,能同时搞定写文章、答问题、编代码等。
形象类比:家里的“孙子”,同时继承父亲(NLP)的“目标”和爷爷(深度学习)的“能力”,还做到了“更强更好”。
向上关联:是深度学习+NLP结合后的“终极落地成果”。
从对比中不难发现,深度学习+自然语言处理共同促进了大语言模型技术发展。
三、大语言模型技术
基于“深度学习”和“自然语言处理”技术的崛起,大语言模型(Large Language Model,LLM)应运而生。
大语言模型本质是 “以深度学习为基础、以Transformer为架构、靠海量数据训练、能输出语言理解与生成能力的复杂 AI 系统。
四个部分环环相扣,共同支撑其像人类一样用语言交互。
深度学习的“多层神经网络”能像人类大脑一样,从数据中“逐层学习复杂规律”(比如从 “单个词” 学到 “短语搭配”,再到 “句子逻辑”)。
大语言模型中Transformer架构的 “注意力机制”,更是解决了 “长文本理解” 的痛点(比如能关联 “文章开头的人物” 和 “结尾的代词”)。
大语言模型就是在这个基础上,把“深度学习的规模” 和 “NLP 的目标” 拉到了极致 ,用“千亿级参数的深度学习模型”,消化“万亿级的自然语言数据”,最终让机器第一次具备了“通用的语言理解与生成能力”。
四、Transformer模型
Transformer模型,有三种自注意类型:
第一种注意力:锁定 “查询中的焦点词”,把注意力集中在这个最核心的词上。
你问豆包AI时,最烦的就是 “想找A,结果出来一堆无关的B” 。这种注意力的作用,就是让模型先“抓准你要的核心” 。
比如你搜“北京故宫门票预约” ,模型会先盯着“北京故宫”、“门票预约” 这两个关键信息,不会把 “北京颐和园攻略”“故宫历史故事” 这些不相关的内容当成重点。
豆包AI会先明确:
用户搜“北京故宫门票预约”时,核心需求是解决“怎么约”的问题,不是“了解故宫相关的所有信息”。
比如你周末要带孩子去故宫,打开手机搜“北京故宫门票预约”。
你的真实目的是:
想知道“在哪约”(官网 / 小程序?),
“什么时候能约”(提前 7 天还是 3 天?),
“约不上怎么办”(有没有候补通道?)——这些是“核心需求”。
而“故宫攻略(比如哪个门进人少)”和“故宫历史(比如太和殿建于哪年)”,虽然都和 “故宫” 有关,但属于 “你可能之后会关心,但当下不需要” 的边缘信息。
这时候第一种注意力(聚焦查询词)的作用就体现了。
它会盯着“门票预约” 这个核心动作,优先把 “预约入口”、“预约步骤”、“预约时间限制” 这些内容推给你,而不是把 “故宫攻略”和“历史故事” 放在最前面,哪怕后者和“故宫” 沾边,也不会抢 “预约” 这个核心需求的风头。
如果你是做故宫周边服务的企业,想让内容被豆包、DeepSeek 收录,就要针对不同用户的 “核心需求”,把内容拆得更细,避免 “一篇内容混着所有信息”。
针对“想预约门票” 的用户:
写《北京故宫门票预约指南:入口 + 时间 + 候补技巧》,全文聚焦 “预约”,别在里面大篇幅讲 “游玩攻略”“历史”——否则模型的第一种注意力会抓不准你的核心,导致想约门票的用户刷不到你的内容。
针对“想查攻略” 的用户:
写《北京故宫游玩攻略:最佳路线 + 避坑指南》,全文聚焦 “游玩”,别在里面过多讲 “门票预约步骤”,这样想查攻略的用户会觉得内容跑偏,模型也会判断你的内容“核心不清晰”。
这样才能精准匹配到有对应需求的用户,提高收录后的曝光和转化。
第二种注意力:针对 “当前查询词”,分析 “其他所有词” 与它的关联程度,筛选出对理解查询词最关键的相关信息。
在和你对话推荐时,豆包会“考虑更多”,但这种 “多” 的底层逻辑,其实正是第二种注意力(判断 “其他词与核心需求的相关性”)在更细致地工作 ,它不是无差别地堆砌信息,而是围绕你的核心需求,把“相关度高的细节都考虑到,不相关的信息都筛掉”。
我们用“学生党买洗发”的场景,具体看它怎么“考虑更多”。
假设你说:“我是学生党,油头,头屑多,预算 50 元以内,想要香味淡一点的洗发水。”
这里你的核心需求是“选适合的洗发水”,而 “学生党”、“油头”、“头屑多”、“50元内”、“香味淡” 都是 “其他词”。而“选适合的洗发水” 是最终要解决的 “核心目标”。
豆包的“考虑更多”,本质是第二种注意力在逐个判断这些词和 “选洗发水” 的相关性,并把每个相关点都落实到推荐里。
先判断“油头” 和 “洗发水” 的相关性,油头需要“控油清洁”,所以推荐时会优先选 “控油型配方” 的产品,排除 “滋润型(适合干皮)” 。
再判断“头屑多” 和 “洗发水” 的相关性,头屑多需要“去屑成分”,所以会在控油基础上,额外筛选含这些成分的,排除 “无去屑功能” 的。
接着判断“50 元内” 和 “洗发水” 的相关性,预算有限,所以会排除 100 元以上的品牌,聚焦平价开架款(如某柔、某婷的基础款)。
最后判断“香味淡” 和 “洗发水” 的相关性 ——避免推荐“浓香花果调” 的,优先选 淡香、无香的款式,甚至会提醒某款香味偏淡,某款可能稍浓。
而那些和你需求相关性弱或无关的信息,比如“适合染后修护的洗发水”、“100ml小瓶装(学生党可能更需要大瓶耐用款)”、“进口高端品牌”,豆包会自动筛掉,不会塞进推荐里。
所以“考虑更多”,不是它想得多,而是它通过第二种注意力,把你提到的每个需求细节都和核心目标(选洗发水)做了相关性匹配,确保推荐里每一条信息都和你的需求有关,既不会漏了“控油”、“去屑” 这些关键需求,也不会加无关信息让你混乱,最终让推荐更贴合你的具体情况。
第三种注意力:是“值头”,用于保存每个词的上下文信息。
值头(Value Head),你可以把它理解为一个临时笔记本,用来储存对话中每个词的语义,以及这些词和上下文的关联。
比如你和豆包聊天:
“我昨天买的羽绒服,今天发现拉链坏了”,这时候“值头” 这个 “笔记本” 里,不会只零散记 “昨天”、“羽绒服”、“拉链坏了” 这几个词。
而是会特意标注它们的关联:羽绒服是昨天买的那一件,拉链坏了是这件昨天买的羽绒服的问题。
所以当你接着说“能退换吗?” 时,豆包不用问 “你说的是哪件衣服?”,就能自动知道你问的是 “昨天买的那件羽绒服”, 正是“值头” 通过保存 “词与上下文的关联”,帮你省了重复解释 “我问的是昨天买的那件”的麻烦。
2022年11月30日,OpenAI推出新一代大模型ChatGPT,自然语言处理更是走向了一个新的台阶。让自然语言处理的重点从自然语言理解转向了自然语言生成。
未来,豆包、文心一言等NLP平台还可能成为下一代搜索引擎,回答人们提出的任何问题。
在被问到一个问题时,NLP搜索引擎会立即消化所有与该问题相关的内容,并且针对某些功能或为特定行业提供定制化的回答。
你的企业是否也会关注在豆包、DeepSeek、文心一言等各大AI平台中的展现率。
部分参考资料:
1.AI未来进行式
2.大语言模型:原理、应用与优化
3.自然语言处理百科.
4.维基百科.自然语言处理
5.这就是ChatGPT
技术支持:网站建设 Copyright @ 上海通秒网络科技有限公司 沪ICP备2023033295号-1