本系列的文章由浅入深介绍LLM的基础知识,从大模型的使用,到原理解析,再到LLM系统实战。 本文着重介绍LLM主流架构Transformer的原理,结合我近期阅读的几本大模型原理书籍、浏览的相关文章做了深度总结+拓展阅读,希望能帮助大家理解大模型的原理。
最近AI的发展实在是太快了,近期B站上AI二创视频、AI让西游记角色唱歌的视频很火,笔者也尝试做了简单复现,用银角大王唱个歌《奉命张狂》,由衷感叹AI太强了。
于是,不由得想问,LLM为什么这么强?Transformer的原理是什么?为什么能做到如此强大的效果?Transformer的架构是什么样的?最近,读了几本书 《从零构建大模型》 、 《图解大模型:生成式AI原理与实战》 、 《Transformer自然语言处理实战:使用Hugging FaceTransformers库构建NLP应用》 ,做了适当的拓展阅读和笔记,于是就有了本文,本文将尝试从原理、架构这两个方面,对Transformer进行深入浅出的介绍。这是小菜鸡的笔记,望各位大佬指正,期待与大家的交流。
为了更好地理解,本文会结合一个案例, “看看Transform ...
如何让AI智能体(Agent)像人类一样拥有持久的记忆,从而在复杂的连续任务中保持上下文感知和深度理解?这已成为构建高级智能体的核心挑战。本文将深入探讨Agent Memory的核心概念,并聚焦于LangGraph框架下的长短期记忆实现,详解短期会话与长期知识的存储、管理、语义检索等技巧。更进一步地,我们将通过一个引入MCP协议的实战案例,手把手带你构建一个真实的融合长记忆机制的Multi-Agent系统,直观展示中断、记忆与协作的融合。
基于大语言模型(LLM)的智能体(Agent)系统中,记忆机制是实现持续、连贯和个性化交互的核心基石,通过记忆,可以让Agent记住过往的交互,保持上下文的一致性,并能从反馈中学习,适应用户的偏好。
本文核心要点概述:
1.介绍Agent Memory的基本情况
2.LangGraph长短期记忆详解及案例说明:包含短期记忆实现、管理方法,长期记忆的实现方法,以及搭建了融合postgres数据库、集成Embedding服务进行语义搜索等可用于生产环境的真实案例。
3.引入MCP协议构建真实的Agent长记忆应用:搭建一个基于supervisor架构 ...
果然又在放假前发新模型了… 不光是DeepSeek, 还有Claude-4.5(后面再分析吧)
可以看到DeepSeek整个模型依旧延续着Sparse这条路, 这次动刀到了Attention上, 当然有了前面NSA的预期.
这次出现DSA也就很正常了. 实质的问题就是计算本身是很容易ScaleOut的, 而内存访问是很难的. 由此可以看到一个很清晰的脉络, 从最早的模型开始, 使用MoE在FFN上稀疏, MLA降低KVCache用量, 再到Attention本身的稀疏, 在Token上做一些选择, 细粒度(Fine-grained)的专家和Token选择串起了一条非常清晰的路径….
DeepSeek-V3.2-Exp 是一个针对Long Context的实验性稀疏注意力模型. 它的核心创新在于, 通过在现有模型 DeepSeek-V3.1-Terminus 的基础上进行持续训练, 引入了一种名为 DeepSeek稀疏注意力(DeepSeek Sparse Attention, DSA) 的新机制.
另外在训练过程中基于KL散度的方式来处理也很巧妙. 想起愚人节给大家开的一个玩笑.
《 ...
Vibe Coding
未读一、引言:一次对“神级提示词”的祛魅之旅最近,在研究如何编写真正强大的系统级提示词。为了学习,我把目光投向了业界前沿的AI原生产品,比如新一代浏览器中集成的 Dia。
初次接触 Dia 的系统提示词我的第一反应是震撼——动辄上百行的指令,细致入微,覆盖了各种边缘情况,从内容生成到格式排版,再到媒体文件的插入逻辑,无所不包。第一感觉就是:真牛! 我渴望能理解这些“神级提示词”是如何设计出来的,并从中汲取养分。
但当我尝试去逐行剖析时,震撼感逐渐被一种作为开发者特有的技术忧虑所取代。剥去华丽的外衣,其内核似乎就是大量规则的无序堆砌。让我们来看一下其中一些规则的片段:
1234567891011121314...- 相比不提供,Dia 应更倾向于提供‘简单回答’……- 如果你的回应中将包含项目符号或编号列表,则不要包含‘简单回答’……- 当用户寻求生活帮助或进行休闲对话时,绝不要使用‘简单回答’。- ……应包含尽可能多的‘问 Dia’超链接,就像维基百科页面那样……- 绝不要在实际的URL或域名上使用‘问 Dia’超链接……- 图片可以紧跟在‘简单回答’之后出现- 图片可以在标题之后出现- ...
回音室攻击介绍“回音室攻击”(Echo Chamber)的新型越狱方法,可诱骗几乎所有主流大语言模型生成不良内容,Neural Trust 研究员Ahmad Alobaid在一份报告中指出:“与依赖对抗性提示或字符混淆的传统越狱方法不同,回音室攻击利用间接引用、语义引导和多步推理进行攻击”。虽然当今主流大模型已经逐步采用各种防护措施来对抗快速注入和越狱攻击,但是“回音室攻击”都能有效的让大模型产生有害的内容,比如,色情、恐怖暴力和歧视等内容。 流程图 — 报告的文章给出了攻击的流程图,包括六个大步骤,其中第六部是一个循环。具体步骤解释如下文:
步骤解释步骤 1:定义有害目标
攻击者确定其最终目标(例如生成仇恨言论、错误信息或违禁指示),但不会在早期提示中直接提及该目标。
步骤 2:埋下毒种
攻击者输入一些看似无害的、包含微妙暗示的良性信息,为后续的语义引导做铺垫。这些信息为模型引入了与最终目标相关的基础概念,但其本身并不违反任何安全策略。
步骤 3:引导毒种
此阶段引入轻度语义引导,开始改变模型的内部状态 —— 同时不暴露攻击者的最终目标。提示看似无害且符合上下文,但 ...
✨【技术神器】真・一键激活 JetBrains 全家桶!三系统通用,0 手动操作超省心✨
***� 无需下载文件的激活新姿势**
先感谢开源社区大佬们的技术积累~
这里整合了一套全自动激活方案,适配 Win/Linux/Mac 三大系统,实测覆盖 IDEA、PyCharm、GoLand 等全系列工具,激活有效期直接拉满到2099 年 12 月 31 日!
***� 三系统操作指南(附保姆级命令)**
**▶**** Windows 系统**
1. 1. **打开管理员权限 PowerShell**:按`Win+X`,选择`Windows PowerShell(管理员)`
2. 2. **复制执行激活命令**(切勿手输!):
1irm ckey.run|iex
• Debug 模式(查看详细日志):
1irm ckey.run/debug|iex
• 查看脚本源码:
1irm ckey.run
**▶**** Linux 系统**
1wget --no-check-certificate ckey.run -O ckey.run && ...
Vibe Coding
未读Cursor的使用效果取决于有效的Rules、正确的开发流程和标准的Prompt。通过合理设置提示词,明确目标、上下文和任务要求,结合项目规范的Rules,能显著提升编程效率。MCP工具可进一步增强Cursor的功能,如直接搜索钉钉文档、任务分解等。但Cursor在大型需求和技术方案深度研究方面仍存在不足,需借助专业工具如DeepResearch或Claude 4.0完成复杂分析任务。未来方向是探索AI在更多研发流程中的提效可能 。
01 写在前面本文是近两个月的实践总结,结合在实际工作中的实践聊一聊Cursor的表现。记录在该过程中遇到的问题以及一些解法。问题概览(for 服务端):
不如我写的快?写的不符合预期?
Cursor能完成哪些需求?这个需求可以用Cursor,那个需求不能用Cursor?
历史代码分析浅显,不够深入理解?
技术方案设计做的不够好,细节缺失,生成代码的可用性不够满意?
02 Cursor项目开发流程
通过近两个月的实践,在编程中,cursor的表现取决与有效的Rules+正确的开发流程+标准的Prompt。在日常需求中按照该流程开发,目前对于编程的提效是 ...
AI Agent
未读在大模型能力日益强大的今天,AI“会不会写代码”已不再是问题,真正决定其能否成为开发者得力助手的关键,在于它“能不能理解上下文”。
技术术语的更迭,不仅是语言表达的更替,更代表着思维范式的转变。上下文工程这一新术语, 之所以能引起业内共鸣,折射的是智能体复杂性的演化和应对策略的转变,是对现实中算法和工程挑战的一种集体回应,尤其是在垂直/领域的智能体。
现有的大模型已经非常智能。但即便是最聪明的人,如果不清楚自己要做的事情的上下文,也很难给出令人满意的交付。两款产品可能在做完全相同的事情,一款给人感觉充满魔力,但另一款却像个廉价的演示品。差别在哪里?就在于上下文工程的构建上。
一、从一个场景开始,感受上下文工程的魔力场景设定:你是某款智能体的产品经理,正在钉钉上收到研发发来的私信:“有个问题想确认一下,新版的导入功能是不是只支持 CSV?我们这边需要开始写接口了。”
一个普通的智能助手可能会直接帮你草拟一句回复:“是的,目前只支持CSV,后续可能会扩展。”表面上看没错,但没有考虑到项目当前阶段、上下游依赖、语气风格、团队共识等细节,容易引起误解或返工。
而一个具备“上下文感知 ...
AI Agent
未读前言AI 狼人对战 AI 预言家,谁更胜一筹?前段时间,我参加了一场 AI 狼人杀比赛。这场比赛不仅是一场逻辑与语言的较量,更是一次对 AI Agent 可靠性、大模型理解能力与信息博弈策略的综合考验。
我的最终目标是构建一个智能体,它不仅能准确理解游戏规则和角色身份,还能灵活应对各种突发情况,并通过精准的语言表达与策略布局影响其他玩家的决策。本文我将详细描述我在本次比赛中如何一步步打造这个高分 Agent 的全过程,分享从最初的构思到最终调试优化的每一个环节。无论你是对 AI 开发感兴趣的技术人员,还是热衷于狼人杀游戏的玩家,本文都将为你提供实践经验。
一、比赛说明本比赛为6人AI Agent局,配置为2狼人、2平民、1预言家、1女巫。
游戏流程核心为夜晚与白天交替。夜晚,狼人可内部商讨并指定击杀目标;预言家查验一人身份;女巫获知被刀者并选择使用解药或毒药。
白天,存活玩家按顺序发言(上限240字,超时60秒),然后投票。得票最多者出局并可发表遗言,若平票则无人出局。
胜利条件:狼人全部出局,则好人阵营胜利;当存活狼人数量大于或等于好人数量时,狼人阵营胜利。Agent在1小时内累计3 ...
1 什么是架构架构是一个界定不清的东西,我们很难讲清楚哪些东西是架构,哪些东西不是架构。但软件行业里其实人人都在搞架构,软件设计就是架构本身。
架构这个词出现得很早,有些人认为是 NASA(也可能是NATO) 发明的。最早的架构定义就是描述软件的结构而已,但现在已经没有多少人谈论他们定义的“软件架构”了。工程师很难以克制描述复杂结构的原始冲动,但描述复杂结构的普世标准并不存在。大家常见的各种定义,翻来覆去地重新讲着“软件架构是软件结构的顶层设计或者抽象设计”之类的话。
即使是这种软件架构的定义,也并不为所有人都接受。汗牛充栋的架构书籍里有各种各样的观点,有的进一步把软件架构视作一堆组件和交互的设计,有的则把软件架构视作架构师主观意图的体现。把自己当作架构师的人们,着迷于把软件里的“不变与抽象的部分”和“易变与具体的部分”分离出来,把前者当作架构。
架构师们是如此地热衷于做这样一件事,以至于有些人认为架构设计好了就解决了基本问题,设计不好通常是因为架构不好。于是很多人开始刻舟求剑:从某某颗粒度开始的设计应该叫概要设计,从某某颗粒度开始的设计应该叫详细设计,寻求一个稳定、确切的合理软件架构 ...
























