程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
微软开源文档转换神器 MarkItDown:58K+ Star 的 Markdown 工具,支持 MCP 协议
编程
微软开源文档转换神器 MarkItDown:58K+ Star 的 Markdown 工具,支持 MCP 协议
2025-06-05 23:01:13 +0800 CST
view 1563
MarkItDown是微软开源的文档转换工具,支持多种文件格式(如PDF、Office、图片、音频等)转换为结构化的Markdown文档,适用于AI大模型和文本分析。该工具在GitHub上获得了超过58K的Star,提供了命令行和PythonAPI使用方式,并支持MarkdownConversionProtocol(MCP)。尽管在处理复杂格式时可能存在限制,但其多格式支持使其成为开发者的有力工具。
开源工具
文档处理
人工智能
文本分析
jieba是一个广受欢迎的Python库,专门用于中文文本的分词处理
综合
jieba是一个广受欢迎的Python库,专门用于中文文本的分词处理
2024-11-18 18:18:43 +0800 CST
view 1757
jieba是一个广受欢迎的Python库,专门用于中文文本的分词处理。它支持多种分词算法,允许用户添加自定义词典,并提供词性标注和关键词提取等高级功能。作为一个开源项目,jieba有着活跃的社区支持,用户可以轻松安装并使用它进行中文文本处理。
自然语言处理
文本分析
开源软件
awpa库是Python中处理文本数据的有用工具,提供分词、词性标注、实体识别等功能
综合
awpa库是Python中处理文本数据的有用工具,提供分词、词性标注、实体识别等功能
2024-11-18 13:58:00 +0800 CST
view 1411
awpa库是Python中处理文本数据的有用工具,提供分词、词性标注、实体识别等功能。本文介绍了awpa的安装、基本用法和高级用法,包括自定义词典和繁简转换,并提供了实际使用案例,展示如何高效处理中文文本。
Python库
文本分析
自然语言处理
diin-text库提供python文本预处理、词向量表示和句子相似度计算等功能
综合
diin-text库提供python文本预处理、词向量表示和句子相似度计算等功能
2024-11-18 20:34:05 +0800 CST
view 1771
本文介绍了Python中的diin-text库,涵盖了安装、基本用法、高级用法及实际案例。diin-text库提供文本预处理、词向量表示和句子相似度计算等功能,适合初学者和深度学习集成。通过示例代码,读者可以快速上手并应用于自然语言处理任务。
Python
自然语言处理
文本分析
ftfy是一个强大的Python库,用于自动检测和修复文本中的编码问题
综合
ftfy是一个强大的Python库,用于自动检测和修复文本中的编码问题
2024-11-18 23:40:21 +0800 CST
view 1950
ftfy是一个强大的Python库,用于自动检测和修复文本中的编码问题。它能够处理网络爬取的数据和用户输入,提供简单的安装和使用方法。核心功能包括修复错误的UTF-8编码、HTML实体和Windows-1252编码错误。ftfy还支持自定义修复策略和检测文本是否需要修复,适合大规模文本处理。它在数据清洗和自然语言处理领域具有重要应用。
Python
文本处理
数据分析
DiffusionGemma 深度实战:当文本生成告别逐字蹦字——从离散扩散到 1100 tokens/s 的生产级完全指南(2026)
编程
DiffusionGemma 深度实战:当文本生成告别逐字蹦字——从离散扩散到 1100 tokens/s 的生产级完全指南(2026)
2026-06-16 07:18:07 +0800 CST
view 102
Google DeepMind 开源 DiffusionGemma 离散文本扩散模型深度实战:从并行去噪原理到 1100 tokens/s 推理,完整代码示例与 Agent 构建
DiffusionGemma
文本扩散
离散扩散
LLM
开源模型
Google DeepMind
综合
pinyin-pro:功能强大的汉字拼音转换库,中文转拼音利器
2024-11-19 08:38:54 +0800 CST
view 2507
pinyin-pro是一个功能强大的JavaScript库,能够将中文文本准确快速地转换为拼音,支持拼音音调、声母、韵母的转换,并处理多音字和姓氏。它提供拼音匹配和中文分词功能,适用于搜索引擎优化、语音合成和汉语教学等场景。该库易于使用,性能优异,适合开发者和语言研究者。
中文处理
编程工具
开源项目
语言学习
文本处理
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
编程
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
2026-05-11 10:53:54 +0800 CST
view 369
DeepSeek-V4-Pro 以 1.6T 总参数、49B 激活参数的 MoE 架构,原生支持 100 万 token 上下文,同时将推理算力降至 V3.2 的 27%、KV Cache 降至 10%。本文深度解析 CSA/HCA 混合注意力机制、mHC 流形约束超连接、KV Cache 极致优化、Muon 优化器等核心技术创新,以及如何在 Ollama、vLLM、官方 API 三种方式下部署运行。
DeepSeek-V4,MoE架构,CSA注意力,HCA注意力,KV Cache,1M上下文,长文本推理,开源大模型
DiffusionGemma 深度实战:当文本扩散重新定义本地AI推理——从'打字机'到'印刷机'的4倍速架构革命
编程
DiffusionGemma 深度实战:当文本扩散重新定义本地AI推理——从'打字机'到'印刷机'的4倍速架构革命
2026-06-12 17:21:39 +0800 CST
view 115
2026年6月Google发布DiffusionGemma,首个生产级文本扩散大模型,本地推理速度提升4倍。本文深入剖析其从自回归到并行生成的架构革命,附完整代码实战。
DiffusionGemma
文本扩散
本地AI
Gemma
大模型推理
扩散模型
Python
Ollama
DiffusionGemma 深度实战:当谷歌用图像扩散的逻辑重塑文本生成——从离散扩散原理到 4 倍推理加速的生产级完全指南(2026)
编程
DiffusionGemma 深度实战:当谷歌用图像扩散的逻辑重塑文本生成——从离散扩散原理到 4 倍推理加速的生产级完全指南(2026)
2026-06-17 23:28:33 +0800 CST
view 100
2026年6月谷歌开源DiffusionGemma,26B MoE参数仅激活3.8B,通过离散扩散实现4倍推理加速。本文从原理、架构、代码实战、性能优化全面深度解析这一范式级创新。
DiffusionGemma
谷歌
文本扩散
MoE
AI推理
Gemma
开源模型
离散扩散
并行生成
深度学习
编程
更新了AI续写和AI纠错功能,并增加了AI补充参数的选项
2024-11-19 09:52:25 +0800 CST
view 1667
本文更新了AI续写和AI纠错功能,并增加了AI补充参数的选项。这些更新旨在提升用户体验和功能的灵活性,使得AI在文本生成和修正方面更加高效。
人工智能
文本处理
功能更新
relext是一个强大的Python库,用于处理正则表达式相关任务
综合
relext是一个强大的Python库,用于处理正则表达式相关任务
2024-11-19 09:50:03 +0800 CST
view 1457
relext是一个强大的Python库,用于处理正则表达式相关任务。本文介绍了relext的安装、基本用法和高级用法,包括编译正则表达式、匹配字符串、搜索文本、分组、查找所有匹配项和使用预定义字符集等功能。通过实际案例,如提取邮箱地址和替换文本,展示了relext在文本解析和数据分析中的应用。
Python
编程
正则表达式
数据处理
文本解析
DiffusionGemma 深度实战:当文本生成进入「扩散纪元」——从离散扩散原理到本地高速推理的完全指南(2026)
编程
DiffusionGemma 深度实战:当文本生成进入「扩散纪元」——从离散扩散原理到本地高速推理的完全指南(2026)
2026-06-14 01:18:58 +0800 CST
view 179
2026年6月Google开源DiffusionGemma——基于离散扩散技术的文本生成模型,打破传统自回归范式,实现4倍生成速度提升。本文深入解析其架构原理、性能实测、代码实战与生产落地。
DiffusionGemma
离散扩散
文本生成
AI大模型
Google
并行推理
MoE架构
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
编程
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
2026-04-15 17:20:25 +0800 CST
view 471
深度解析中科院与腾讯微信联合研发的 FlashPrefill 如何通过即时注意力模式发现和动态阈值筛选,将 25.6 万字符长文本处理速度提升 27.78 倍,同时保持近乎完美的精度。
LLM推理优化
FlashAttention
GPU计算
长文本处理
注意力机制
Transformer
深度学习
xlwings是一个用于与Excel进行交互的Python库
综合
xlwings是一个用于与Excel进行交互的Python库
2024-11-19 07:16:23 +0800 CST
view 2226
xlwings是一个用于与Excel进行交互的Python库,提供简单易用的API,支持Excel的所有功能,包括公式、图表和透视表。本文介绍了xlwings的安装方法、主要特性、基本和高级功能,以及在财务数据处理、数据可视化和报表生成等实际应用场景中的使用,帮助开发者高效地操作Excel文件。
Python库
数据分析
Excel自动化
数据可视化
财务分析
Polars 深度实战:Rust+Arrow 原生架构如何重构 Python 数据处理
编程
Polars 深度实战:Rust+Arrow 原生架构如何重构 Python 数据处理
2026-05-09 06:39:07 +0800 CST
view 283
深入解析 Polars 的 Rust+Arrow 原生架构,从内存格式革命到查询优化器原理,对比 Pandas 性能差异,详解 Polars 2.0 关键升级与生产级实战技巧。
Python
Rust
数据分析
DataFrame
Pathway 深度解析:Python ETL 框架的流式处理革命 —— 用 Rust 引擎吊打 Flink/Spark,构建实时 LLM Pipeline
编程
Pathway 深度解析:Python ETL 框架的流式处理革命 —— 用 Rust 引擎吊打 Flink/Spark,构建实时 LLM Pipeline
2026-05-16 03:46:12 +0800 CST
view 311
55K+ Star,基于 Differential Dataflow 的 Rust 引擎,增量计算,内存计算,无缝集成 Python ML 生态——Pathway 正在重新定义实时流处理与 LLM Pipeline 的边界。
Python
流处理
实时分析
LLM
RAG
Pathway
ETL
开源项目
GitHub Trending
FinceptTerminal 深度实战:当金融终端遇见C++20原生性能——从Bloomberg颠覆者到37个AI Agent的生产级完全指南(2026)
编程
FinceptTerminal 深度实战:当金融终端遇见C++20原生性能——从Bloomberg颠覆者到37个AI Agent的生产级完全指南(2026)
2026-06-16 05:46:53 +0800 CST
view 112
Bloomberg Terminal年费$24,000,FinceptTerminal以C++20+Qt6+嵌入式Python打造开源替代方案。深度剖析三层架构、现代C++20特性、Qt6渲染优化、Python零拷贝集成、GPU加速蒙特卡洛模拟,附完整可运行代码示例。
C++20
Qt6
金融终端
量化分析
Bloomberg替代
sql语句分别按日,按周,按月,按季统计金额
编程
sql语句分别按日,按周,按月,按季统计金额
2024-11-17 05:05:22 +0800 CST
view 3163
本文讨论如何使用SQL语句按日、周、月和季节统计消费记录的总量。提供了四条SQL示例语句,分别实现不同时间段的消费总和计算,并说明了如何根据指定日期进行查询。示例中使用了聚合函数和groupby语句,适用于消费记录表的分析。
数据库
SQL
数据分析
ClickHouse 2026 深度实战:当列式存储遇见 AI 时代——从 MergeTree 引擎到 PB 级实时分析,构建下一代数据基础设施的完全指南
编程
ClickHouse 2026 深度实战:当列式存储遇见 AI 时代——从 MergeTree 引擎到 PB 级实时分析,构建下一代数据基础设施的完全指南
2026-06-21 21:58:21 +0800 CST
view 14
2026 年 ClickHouse 生产级完全指南:从列式存储、MergeTree 引擎、向量化执行到分布式架构、物化视图、Kafka 集成、性能优化与 AI 场景实战。
ClickHouse
OLAP
列式存储
MergeTree
实时分析
数据库
大数据
性能优化
物化视图
云原生
Dirty Frag 深度实战:Linux 内核零拷贝页缓存污染漏洞——从 splice() 注入到双链提权的完整技术剖析
编程
Dirty Frag 深度实战:Linux 内核零拷贝页缓存污染漏洞——从 splice() 注入到双链提权的完整技术剖析
2026-05-16 12:14:12 +0800 CST
view 406
深度剖析 Linux 内核 Dirty Frag 漏洞链,从 splice() 零拷贝注入到 xfrm-ESP 与 RxRPC 双链提权的完整技术实战,含防护方案与 eBPF 检测
Linux
内核安全
漏洞分析
提权
零拷贝
eBPF
Chrome DevTools MCP 深度解析:谷歌官方出品的 AI 编程助手浏览器控制利器
编程
Chrome DevTools MCP 深度解析:谷歌官方出品的 AI 编程助手浏览器控制利器
2026-04-29 08:44:10 +0800 CST
view 438
37K+ Star 谷歌官方开源项目,让 Claude、Cursor、Copilot 等 AI 编程助手直接操控浏览器进行自动化调试、性能分析和智能测试。深度解析 MCP 协议、CDP 协议、30+ 工具详解、代码实战、部署指南。
Chrome DevTools
MCP
AI编程助手
浏览器自动化
性能分析
Polars 深度实战:碾压 Pandas 的 Rust 极速 DataFrame 引擎——从 Apache Arrow 内存模型到 Lazy Execution 的完全指南(2026)
编程
Polars 深度实战:碾压 Pandas 的 Rust 极速 DataFrame 引擎——从 Apache Arrow 内存模型到 Lazy Execution 的完全指南(2026)
2026-06-02 16:24:32 +0800 CST
view 228
深度解析 Polars 如何基于 Rust 和 Apache Arrow 实现比 Pandas 快 94 倍的性能,涵盖 Lazy Execution、查询优化、生产实践
Polars
Rust
DataFrame
Python数据分析
高性能计算
Apache Arrow
Lazy Execution
Fincept Terminal 深度解析:C++20 重写的开源金融终端,如何把彭博级分析塞进每个人的桌面
编程
Fincept Terminal 深度解析:C++20 重写的开源金融终端,如何把彭博级分析塞进每个人的桌面
2026-04-30 07:18:33 +0800 CST
view 694
深入解析 Fincept Terminal v4 的 C++20+Qt6+嵌入式Python三层架构、37个AI投资大师Agent系统、CFA级量化分析引擎、16家券商交易集成、节点编辑器与MCP协议——看开源如何重塑金融数据基础设施
C++
Qt6
金融终端
开源
AI Agent
量化分析
Fincept Terminal
彭博终端
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
4
下一页