程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
编程
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
2026-04-15 17:20:25 +0800 CST
view 410
深度解析中科院与腾讯微信联合研发的 FlashPrefill 如何通过即时注意力模式发现和动态阈值筛选,将 25.6 万字符长文本处理速度提升 27.78 倍,同时保持近乎完美的精度。
LLM推理优化
FlashAttention
GPU计算
长文本处理
注意力机制
Transformer
深度学习
DFlash 深度实战:当扩散模型遇上推测解码——从原理到生产级 LLM 推理加速完全指南(2026)
编程
DFlash 深度实战:当扩散模型遇上推测解码——从原理到生产级 LLM 推理加速完全指南(2026)
2026-06-06 01:38:49 +0800 CST
view 119
DFlash(Block Diffusion for Flash Speculative Decoding)是ZLab于2026年提出的LLM推理加速框架,用块扩散模型替代传统自回归草稿模型,实现6倍以上无损加速。
LLM推理加速
推测解码
扩散模型
块扩散
DFlash
ZLab
大模型优化
VibeVoice 深度解析:微软如何用连续语音Tokenizer和Next-Token Diffusion重塑语音AI边界
编程
VibeVoice 深度解析:微软如何用连续语音Tokenizer和Next-Token Diffusion重塑语音AI边界
2026-04-15 22:19:22 +0800 CST
view 386
深度解析微软VibeVoice开源语音AI全家桶:7.5Hz连续Tokenizer如何压缩60分钟音频,Next-Token Diffusion如何驱动90分钟对话合成,附完整代码实战与性能对比。
VibeVoice
微软
语音AI
ASR
TTS
Diffusion
LLM
SGLang 深度实战:新一代 LLM 编程与推理框架——从 RadixAttention 原理到 Agent 系统生产部署
编程
SGLang 深度实战:新一代 LLM 编程与推理框架——从 RadixAttention 原理到 Agent 系统生产部署
2026-05-06 17:37:39 +0800 CST
view 402
深度解析 SGLang 推理框架的 RadixAttention 原理、DSL 编程范式、正则约束解码,以及在 Agent 系统和多轮对话场景的生产部署实践。
SGLang
LLM
推理加速
Agent
RadixAttention
结构化生成
Karpathy 四原则深度实战:当 AI 编程助手学会「克制」——从错误率 41% 到 3% 的生产级完全指南(2026)
编程
Karpathy 四原则深度实战:当 AI 编程助手学会「克制」——从错误率 41% 到 3% 的生产级完全指南(2026)
2026-06-06 09:38:11 +0800 CST
view 95
前 Tesla AI 总监 Karpathy 提炼的四条 AI 编程原则,如何在 6 周内让 30 个代码库错误率从 41% 降到 3%。深入剖析 Think Before Coding、Simplicity First、Surgical Changes、Goal-Driven Execution 四原则的底层逻辑与实战应用。
AI编程
Claude Code
Karpathy
LLM
编码原则
BitNet 深度实战:微软 32K Star 的 1-bit LLM 推理框架——从三值量化原理到 CPU 原生推理的全链路架构解析
编程
BitNet 深度实战:微软 32K Star 的 1-bit LLM 推理框架——从三值量化原理到 CPU 原生推理的全链路架构解析
2026-05-07 03:35:48 +0800 CST
view 283
深度解析微软 BitNet 1-bit LLM 推理框架,从三值量化数学原理到 bitnet.cpp 内核优化,再到 CPU 原生推理实战部署的全链路架构解析
BitNet
1-bit LLM
量化
CPU推理
微软
编程
Headroom 深度实战:当 AI Agent 学会「上下文压缩」——从 Token 暴降 95% 原理到生产级实践的完全指南(2026)
2026-06-08 17:53:16 +0800 CST
view 85
Headroom 是一个专为 AI Agent 设计的开源上下文压缩中间层,实测节省 60-95% Token,精度保留率高达 97%。本文从架构原理、六大压缩算法、MCP集成到生产级部署全面深度解析。涵盖 ContentRouter、SmartCrusher、可逆缓存等核心技术,配完整 Python 代码示例。适合 Claude Code、Cursor、LangChain 等工具链用户。Apache 2.0 开源可商用。
AI Agent,Token优化,上下文压缩,Headroom,LLM,Python,上下文管理,AI编程,生产实践
Docs2KG:用大模型把PDF、邮件、Excel统一建成知识图谱,让企业沉睡知识激活
编程
Docs2KG:用大模型把PDF、邮件、Excel统一建成知识图谱,让企业沉睡知识激活
2026-04-16 19:04:26 +0800 CST
view 442
Docs2KG是AI4WA开源的知识图谱构建框架,用大模型将PDF、邮件、Excel等异构文档统一抽取为知识三元组,构建统一知识图谱,支持问答和推理分析。
知识图谱
AI
LLM
PDF
RAG
知识管理
开源
TurboQuant 深度实战:Google 的 KV 缓存压缩算法完全指南(2026)
编程
TurboQuant 深度实战:Google 的 KV 缓存压缩算法完全指南(2026)
2026-06-08 20:52:38 +0800 CST
view 32
2026年3月Google Research在ICLR 2026发表TurboQuant算法,将LLM的KV缓存压缩至3-bit,实现6倍内存缩减和8倍推理加速。本文深入剖析TurboQuant的技术原理,并提供生产级部署指南。
TurboQuant
KV缓存压缩
LLM推理优化
量化算法
Google Research
ICLR2026
FastGPT:27.2K Star零代码构建企业级AI知识库,可视化工作流+多模态文档一站搞定
编程
FastGPT:27.2K Star零代码构建企业级AI知识库,可视化工作流+多模态文档一站搞定
2026-04-16 19:06:53 +0800 CST
view 524
FastGPT是环界云团队开源的AI知识库问答系统(27.2K Stars),零代码构建私有知识库,支持可视化工作流编排和多模态文档解析,支持GPT/Claude等任意LLM模型。
AI
知识库
FastGPT
RAG
开源
LLM
工作流
Dify
Dify:92K Star开源LLM应用平台,零代码构建生产级AI工作流,Docker一键部署
编程
Dify:92K Star开源LLM应用平台,零代码构建生产级AI工作流,Docker一键部署
2026-04-16 19:09:32 +0800 CST
view 479
Dify是开源的LLM应用开发平台(92K Stars),零代码构建生产级AI应用,支持可视化工作流编排和知识库管理,服务超过2000个团队,已完成3000万美元融资。
AI
LLM
Dify
工作流
RAG
开源
知识库
可视化编排
LangChain4j:把LangChain的能力带入Java世界,一个库搞定LLM集成、RAG、Agent
编程
LangChain4j:把LangChain的能力带入Java世界,一个库搞定LLM集成、RAG、Agent
2026-04-16 19:11:21 +0800 CST
view 361
LangChain4j是Java世界的LangChain,简化Java应用集成大语言模型,支持OpenAI/Claude/DeepSeek等模型,提供RAG、Agent、Tool Calling、Memory等完整能力,Apache 2.0协议。
Java
LangChain
AI
LLM
RAG
Agent
开源
工具调用
编程
MarkItDown 深度解析:微软 AutoGen 团队出品的万能文档转换工具,如何让 RAG 系统真正「吃得好」
2026-04-17 09:15:57 +0800 CST
view 448
微软 AutoGen 团队出品的 MarkItDown 如何解决 RAG 系统中文档预处理的格式地狱,深度解析其架构设计、各格式处理策略与 RAG 实战集成。
Python
Tools
RAG
LLM
AutoGen
llm-d进入CNCF:Kubernetes正式迈入AI原生时代
编程
llm-d进入CNCF:Kubernetes正式迈入AI原生时代
2026-04-08 12:29:41 +0800 CST
view 415
IBM、红帽、谷歌联合向CNCF捐赠llm-d项目,标志着Kubernetes正式迈入AI原生时代。本文深度解析llm-d架构设计、性能数据及实践建议。
Kubernetes
云原生
AI
大模型
llm-d
CNCF
Headroom 深度实战:当 AI Agent 学会「省着吃」——从 Token 暴降 60-95% 到可逆上下文压缩的生产级完全指南(2026)
编程
Headroom 深度实战:当 AI Agent 学会「省着吃」——从 Token 暴降 60-95% 到可逆上下文压缩的生产级完全指南(2026)
2026-06-09 14:16:12 +0800 CST
view 31
Headroom 是一个开源的 AI Agent 上下文压缩中间层,通过六大专用算法实现 60-95% 的 Token 节省,CCR 可逆存储确保信息零丢失,跨 Agent 记忆打破协作孤岛。
AI Agent
Headroom
上下文压缩
Token优化
LLM
开源项目
Google LangExtract 深度实战:让 LLM 从"黑盒"变"透明"——从架构原理到生产级结构化提取完全指南(2026)
编程
Google LangExtract 深度实战:让 LLM 从"黑盒"变"透明"——从架构原理到生产级结构化提取完全指南(2026)
2026-05-30 15:10:01 +0800 CST
view 124
Google LangExtract 深度实战:从架构原理、核心源码、代码实战到生产级部署,全面掌握这款让LLM从"黑盒"变"透明"的神器。
LLM
Google
Python
结构化提取
NLP
信息抽取
开源项目
AI工程化
Google LangExtract 深度实战:当 LLM 学会「精准定位」——从非结构化文本到结构化数据的完全指南(2026)
编程
Google LangExtract 深度实战:当 LLM 学会「精准定位」——从非结构化文本到结构化数据的完全指南(2026)
2026-06-09 16:19:31 +0800 CST
view 33
Google LangExtract 深度实战教程,详解如何从非结构化文本中提取结构化信息,包含精确源定位、交互式可视化、长文档优化等核心特性,附完整代码示例。
LLM
信息提取
Python
Google
NLP
Pathway 深度解析:当 Python 遇上 Rust 引擎,实时 ETL 的性能革命
编程
Pathway 深度解析:当 Python 遇上 Rust 引擎,实时 ETL 的性能革命
2026-04-08 15:34:42 +0800 CST
view 486
Pathway 是一个用 Python 写业务逻辑、用 Rust 执行计算的实时 ETL 框架,基于 Differential Dataflow 实现真正的增量计算。本文深度解析其架构原理、核心用法、LLM xpack 的 RAG 应用,以及在 AI 数据流水线中的独特价值。
Pathway
ETL
Rust
Python
流处理
LLM
RAG
增量计算
Zig 语言宣布「封杀」AI 贡献:开源社区最激烈的一次价值撕裂
编程
Zig 语言宣布「封杀」AI 贡献:开源社区最激烈的一次价值撕裂
2026-05-15 18:44:30 +0800 CST
view 255
深入剖析 Zig 语言官方封杀 AI 贡献的核心逻辑,从 Contributor Poker 概念出发,探讨 LLM 如何摧毁开源社区的信任基础设施,以及 Bun fork 的连锁反应。
Zig
AI
LLM
开源社区
编程语言
编程
MarkItDown 深度解析:微软开源的文档转换神器如何重塑 LLM 时代的知识处理流水线
2026-04-18 06:17:21 +0800 CST
view 340
深度解析微软开源的 MarkItDown 文档转换工具,从架构设计、源码实现到实战应用,揭秘它如何成为 LLM 时代知识处理的基础设施。
MarkItDown
微软开源
文档转换
LLM
RAG
Python工具
Markdown
PDF转换
LLM Wiki 深度解析:当 Karpathy 亲手终结 RAG 的草莽时代
编程
LLM Wiki 深度解析:当 Karpathy 亲手终结 RAG 的草莽时代
2026-04-08 19:24:56 +0800 CST
view 1641
Karpathy最新提出的LLM Wiki范式深度解析,从工程实现、架构设计、代码实战等多维度解读这一可能终结RAG的全新知识管理方案。
LLM
RAG
知识管理
Karpathy
Claude
AI
Pathway 深度解析:用 Python 搞定实时流处理+LLM Pipeline,55K Star 背后的技术革命
编程
Pathway 深度解析:用 Python 搞定实时流处理+LLM Pipeline,55K Star 背后的技术革命
2026-05-15 20:44:26 +0800 CST
view 207
Pathway深度解析:Python ETL框架,实时流处理+LLM Pipeline,增量计算引擎,性能对比Flink,完整代码实战。
Pathway
流处理
LLM
Python
ETL
RAG
实时计算
2026年4月24日:大模型军备竞赛进入新纪元——DeepSeek V4 与 GPT-5.5 深度技术对比解析
编程
2026年4月24日:大模型军备竞赛进入新纪元——DeepSeek V4 与 GPT-5.5 深度技术对比解析
2026-04-28 08:54:41 +0800 CST
view 641
2026年4月24日,DeepSeek V4与GPT-5.5同日发布。本文从MoE架构、注意力机制、性能基准、Engram记忆模块、mHC超连接、Muon优化器等核心技术点进行硬核深度对比,配大量代码示例,为开发者提供实用的技术选型指南。
AI大模型
LLM
GitHub精选
开源项目
TechNews
Zig 项目宣布反 AI 贡献政策:开源社区最分裂的话题,程序员怎么看?
编程
Zig 项目宣布反 AI 贡献政策:开源社区最分裂的话题,程序员怎么看?
2026-05-31 11:23:49 +0800 CST
view 250
2026年4月,Zig语言官方宣布全面禁止LLM生成的代码贡献,引发开源社区激烈争论。本文从程序员视角深度解析Loris Cro的「Contributor Poker」理论、Bun 4倍提速无法上线的真实案例,以及开源治理的新课题。
Zig
开源
AI编程
LLM
GitHub
社区治理
系统编程
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
4
5
6
7
8
...
13
下一页