编程 HuggingFace ml-intern 深度实战：一个命令让 AI 读论文、训模型、推到 Hub——ML 工程自动化的端到端革命（2026）

2026-06-04 08:41:56 +0800 CST views 592

HuggingFace ml-intern 深度实战：一个命令让 AI 读论文、训模型、推到 Hub——ML 工程自动化的端到端革命（2026）

引言：ML 工程师的日常痛苦

作为一名机器学习工程师，你的一天大概是这样的：早上打开 arXiv 刷一遍最新论文，看到一篇有意思的方法论，复制 DOI 去找数据集，然后开始写训练脚本——配置超参数、处理数据、写训练循环、调试 CUDA 错误、等几个小时跑完实验、分析结果发现效果不好、回去调参再来一遍……整个过程充满重复劳动，大部分时间花在了"胶水代码"而非创造性思考上。

2026 年 4 月，HuggingFace 正式开源了 ml-intern——一个能自主阅读研究论文、检索数据集、编写训练脚本、提交云端训练任务、分析实验结果并自动调优的 AI Agent。它的名字叫"ML 实习生"，定位精准到令人发笑：帮你干那些研究生和初级工程师日常做的所有脏活累活。

这不是又一个代码生成工具。ml-intern 是第一个专门面向 ML 工程全流程 设计的智能体，深度集成 HuggingFace 生态的每一个组件——从 Transformers 到 Datasets，从 Hub 到 Inference Providers，从 Papers 到 Jobs 云计算平台。

本文将从架构原理到代码实战，带你完整拆解这个项目，理解它如何改变 ML 工程师的日常工作流。

一、ml-intern 是什么：定位与核心能力

1.1 项目定位

ml-intern 的 GitHub 描述只有一句话：

An ML intern that autonomously researches, writes, and ships good quality ML related code using the Hugging Face ecosystem — with deep access to docs, papers, datasets, and cloud compute.

翻译过来就是：一个能自主研究、编写并交付高质量 ML 代码的 AI 实习生，拥有对文档、论文、数据集和云计算的深度访问能力。

截至 2026 年 6 月，ml-intern 在 GitHub 上已获得 5000+ Stars，日增星数曾突破 1000。它由 HuggingFace 核心团队开发，作者包括 Aksel Joonas Reedi、Henri Bonamy、Yoan Di Cosmo、Leandro von Werra 和 Lewis Tunstall。

1.2 核心能力矩阵

ml-intern 覆盖了 ML 工程的完整生命周期：

能力维度	具体功能	技术实现
论文理解	阅读 arXiv 论文，提取方法论，遍历引文图谱	HF Papers 集成
数据检索	在 HuggingFace Hub 上搜索、评估数据集质量	Hub API + Datasets
代码编写	自动生成训练脚本、推理代码、评估 pipeline	基于 LLM 的代码生成
云端训练	提交训练任务到 HF Jobs，支持 GPU 硬件	HF Jobs API
实验监控	通过 Trackio 监控训练运行状态，读取日志	Trackio 集成
自动调优	分析评测结果，诊断失败原因，自动重训	多轮迭代循环
模型部署	训练完成后自动推送到 HuggingFace Hub	Hub 上传 API
代码搜索	在 GitHub 上搜索相关开源实现	GitHub API

这 8 个能力形成了一个完整的闭环：读论文 → 找方法 → 找数据 → 写代码 → 提交训练 → 监控实验 → 分析结果 → 部署模型。

1.3 与其他 AI Agent 的区别

很多人会把 ml-intern 和 Claude Code、Cursor、Devin 等工具混为一谈。关键区别在于：

通用编码 Agent（如 Claude Code）：擅长写代码、改代码、跑测试，但对 ML 领域的专业知识（如何选数据集、如何配置训练超参数、如何解读训练曲线）依赖用户输入。

ml-intern：专门针对 ML 工程流程设计，内置了对 HuggingFace 全栈生态的深度集成，能理解论文中的方法论并转化为可执行的训练代码，知道去哪里找合适的数据集，能自动提交云端 GPU 训练任务并分析结果。

简单说：Claude Code 是一个会写代码的程序员，ml-intern 是一个读过 100 篇论文的 ML 实习生。

二、技术架构深度解析

2.1 整体架构：基于 smolagents 的多智能体系统

ml-intern 不是单一的工具，而是一个由多个智能体组成的协同系统。它的基础是 HuggingFace 开发的 smolagents 框架——一个专门为构建可执行复杂任务的 AI Agent 而设计的轻量级框架。

整个架构可以分为四个核心层次：

┌─────────────────────────────────────────────┐
│           用户交互层 (User/CLI)               │
│  • 交互式 REPL 模式                          │
│  • 单命令模式                               │
│  • Web App 界面                             │
└──────────────────┬──────────────────────────┘
                   │
┌──────────────────▼──────────────────────────┐
│        代理编排层 (submission_loop)          │
│  • 操作队列 (Operations Queue)               │
│  • 事件队列 (Events Queue)                  │
│  • 审批检查 (Approval Gate)                  │
└──────────────────┬──────────────────────────┘
                   │
┌──────────────────▼──────────────────────────┐
│        核心智能体层 (Agentic Loop)           │
│  • ContextManager (上下文管理)               │
│  • ToolRouter (工具路由)                     │
│  • Doom Loop Detector (死循环检测)           │
│  • 最大 300 次迭代                          │
└──────────────────┬──────────────────────────┘
                   │
┌──────────────────▼──────────────────────────┐
│           工具执行层 (Tools)                 │
│  • HF 文档与论文搜索                         │
│  • Hub 仓库与数据集操作                      │
│  • GitHub 代码搜索                          │
│  • Sandbox & 本地工具                        │
│  • 规划工具 (Planning)                      │
│  • MCP Server 工具                          │
└─────────────────────────────────────────────┘

2.2 ContextManager：智能上下文管理

ContextManager 是整个系统的"大脑记忆"，负责管理对话历史和自动压缩。它有几个关键设计：

消息历史管理：ContextManager 内部维护一个 litellm.Message[] 数组，记录所有用户消息、助手响应和工具调用结果。

自动压缩机制：当上下文接近 170k token 时，ContextManager 会自动触发压缩（compaction），将历史对话总结为精简版本，释放上下文空间。这是一个关键设计——ML 工程任务往往涉及大量论文内容、代码和实验日志，很容易撑爆上下文窗口。

会话持久化：每次会话自动上传到用户私有的 HuggingFace 数据集，采用 Claude Code JSONL 格式。这意味着你可以随时回溯任何一次实验的完整过程。

2.3 ToolRouter：统一工具调度

ToolRouter 是 ml-intern 的"手脚"，负责将 LLM 的工具调用路由到具体实现。它内置了六大类工具：

1. HuggingFace 文档与论文搜索

在 HuggingFace 文档库中搜索 API 用法
在 HF Papers 上检索相关论文
遍历引文图谱查找关键方法论

2. Hub 仓库与数据集操作

搜索和评估 Hub 上的数据集质量
克隆和浏览模型仓库
上传训练好的模型到 Hub

3. GitHub 代码搜索

通过 GitHub API 搜索相关开源实现
分析代码仓库结构
参考现有实现

4. 训练与推理

提交训练任务到 HF Jobs
通过 Trackio 监控训练状态
读取训练日志和评测结果

5. Sandbox 与本地工具

在 HF Space 沙箱中安全执行代码
本地文件系统读写操作
代码编辑和执行

6. MCP Server 集成

支持外部 MCP（Model Context Protocol）服务器
可扩展自定义工具

2.4 Doom Loop Detector：防止智能体陷入死循环

这是一个极其重要的工程细节。AI Agent 在执行复杂任务时，很容易陷入"写了代码 → 跑不通 → 改代码 → 还是跑不通 → 继续改"的死循环。ml-intern 专门设计了 Doom Loop Detector：

检测重复的工具调用模式
当检测到 Agent 在做重复操作时，注入纠正性提示（corrective prompts）
引导 Agent 换一个方向尝试

这是一个从实际工程经验中提炼的设计——HuggingFace 团队在开发过程中发现，没有这个机制的 Agent 经常在同一个错误上反复尝试几十次。

2.5 审批机制：安全与控制的平衡

ml-intern 不是完全放手的。对于敏感操作（如提交云端训练任务、创建沙箱、破坏性文件操作），系统会暂停并等待用户审批。这通过 Operations Queue 实现：

用户输入 → Operations Queue → 路由到 Handler → 
检查是否需要审批 → 
  Yes → 等待用户确认
  No → 直接执行
→ 执行工具调用 → 结果写入 ContextManager

审批机制让用户在享受自动化的同时保持对关键操作的控制。

2.6 事件系统：全链路可观测

ml-intern 设计了完整的事件系统，通过 event_queue 发出以下事件类型：

事件类型	触发时机	用途
`processing`	开始处理用户输入	状态指示
`assistant_chunk`	流式 token 输出	实时展示
`tool_call`	调用工具时	透明度
`tool_output`	工具执行完成	调试追踪
`approval_required`	需要用户审批	交互控制
`turn_complete`	一轮处理完成	进度通知
`error`	发生错误	异常告警
`compacted`	上下文被压缩	内存管理通知

这些事件可以通过 Slack 通知网关推送到外部，实现异步监控。

三、环境搭建与快速上手

3.1 系统要求

ml-intern 基于 Python 构建，使用 uv 作为包管理器：

Python 3.10+
uv 包管理器（HuggingFace 官方推荐）
HuggingFace Token（必填）
GitHub Token（可选，用于代码搜索）

3.2 安装步骤

# 克隆项目
git clone git@github.com:huggingface/ml-intern.git
cd ml-intern

# 安装依赖（uv 会自动创建虚拟环境）
uv sync

# 安装为命令行工具
uv tool install -e .

安装完成后，终端里就有了 ml-intern 命令。

3.3 配置 API 密钥

在项目根目录创建 .env 文件：

# HuggingFace Token（必填）
# 用于 HF Router 推理和 Hub 操作
HF_TOKEN=hf_xxxxxxxxxxxxx

# 底层大模型选择（选一个即可）
ANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxx
# OPENAI_API_KEY=sk-xxxxxxxxxxxx

关于 HF_TOKEN：所有基于 API 的模型调用都通过 HuggingFace Inference Providers 路由。如果你没有设置 HF_TOKEN，CLI 首次启动时会提示你粘贴一个。HF Pro 用户还可以获得 Claude Opus 4.8 和 GPT-5.5 的补贴日常会话。

3.4 基本使用

# 进入交互模式
ml-intern

# 单命令模式——一句话开始任务
ml-intern "fine-tune llama on my dataset"

# 指定使用的模型
ml-intern --model anthropic/claude-sonnet-4-6:fal-ai "your prompt"
ml-intern --model moonshotai/Kimi-K2.6 "your prompt"
ml-intern --model openai/gpt-5.5:fal-ai "your prompt"

在交互模式中，使用 /model 命令查看完整支持的模型列表，包括 Claude、GPT、HF Router 模型（如 MiniMax、Kimi、GLM、DeepSeek）以及本地模型前缀。

四、本地模型支持：完全离线运行

ml-intern 的一个重要特性是支持本地模型。这意味着你可以在不依赖任何云 API 的情况下运行 ml-intern，所有推理都在你的本地硬件上完成。

4.1 本地推理架构

ml-intern 的本地模型支持通过 OpenAI 兼容的 HTTP 端点实现，底层使用 LiteLLM 库。注意：Agent 不会直接从磁盘加载模型权重——你需要先启动一个推理服务器，然后用 provider 特定的模型前缀选择：

# 使用 Ollama 运行的本地模型
ml-intern --model ollama/llama3.1:8b "your prompt"

# 使用 vLLM 运行的本地模型
ml-intern --model vllm/meta-llama/Llama-3.1-8B-Instruct "your prompt"

在交互模式中切换模型：

/model ollama/llama3.1:8b
/model lm_studio/google/gemma-3-4b
/model llamacpp/llama-3.1-8b-instruct

4.2 支持的本地推理后端

后端	前缀	适用场景
Ollama	`ollama/`	最简单的本地部署，支持 CPU/GPU
vLLM	`vllm/`	高性能 GPU 推理，适合大模型
LM Studio	`lm_studio/`	图形化界面，适合调试
llama.cpp	`llamacpp/`	纯 CPU 推理，低资源需求

4.3 本地模型配置

# 设置本地推理端点（共享配置）
export LOCAL_LLM_BASE_URL=http://localhost:8000
export LOCAL_LLM_API_KEY=<optional-api-key>

# 或针对特定后端单独配置
export OLLAMA_BASE_URL=http://localhost:11434
export VLLM_BASE_URL=http://localhost:8000
export VLLM_API_KEY=<optional-api-key>

特定后端的变量优先级高于共享变量。Base URL 可以包含或省略 /v1 路径。

4.4 本地模型的实用建议

本地模型在 ml-intern 中的表现取决于模型的指令遵循能力。对于复杂 ML 任务（如阅读论文、编写训练代码），建议使用至少 8B 参数的模型：

# 推荐：Llama 3.1 8B（平衡性能与速度）
ollama pull llama3.1:8b
ml-intern --model ollama/llama3.1:8b "分析这篇论文的方法论并写训练代码"

# 高配机器：Llama 3.1 70B（更强的推理能力）
ml-intern --model vllm/meta-llama/Llama-3.1-70B-Instruct "fine-tune mistral on squad dataset"

五、沙箱与云端执行

5.1 两种运行时模式

ml-intern 提供两种工具运行时：

本地运行时（默认）：Agent 直接在你的本地文件系统上执行 bash 命令、读写文件。适合需要检查或编辑本地 checkout 的场景。

沙箱运行时：Agent 在 HF Space 沙箱中执行代码，不会影响你的本地文件。适合需要在远程 GPU 上测试代码的场景。

# 使用沙箱模式
ml-intern --sandbox-tools "test this training script in a GPU sandbox"

# 本地模型 + 沙箱工具
ml-intern --model llamacpp/ggml-org/gemma-3-1b-it-GGUF --sandbox-tools

5.2 沙箱模式的工作流程

用户输入任务
Agent 规划方案
Agent 创建一个私有 HF Space 作为沙箱
Agent 将代码推送到沙箱 Space
沙箱 Space 启动并执行代码
Agent 读取执行结果
根据结果决定下一步

沙箱模式需要 HF_TOKEN（即使使用本地模型），因为它需要创建私有 HF Space。你可以在配置文件中设置默认运行时：

// ~/.config/ml-intern/cli_agent_config.json
{
  "tool_runtime": "sandbox"
}

5.3 实际使用建议

调试训练脚本：用沙箱模式，不影响本地环境
快速验证想法：用沙箱模式，几秒启动一个 GPU 环境
生产级实验：先沙箱测试，确认无误后切换到本地运行时进行正式实验
评估数据集：用沙箱模式在 GPU 环境中快速加载数据集

六、深度实战：从论文到模型的全流程

6.1 场景一：论文复现

假设你在 arXiv 上看到了一篇关于文本分类新方法的论文，想要复现：

ml-intern "阅读论文 'Attention Is All You Need' 的方法论，在 AG News 数据集上实现并训练一个文本分类模型"

ml-intern 的执行流程大致是：

理解任务：Agent 解析你的需求，理解需要复现什么
搜索论文：在 HF Papers 上找到相关论文，阅读摘要和方法论部分
找数据集：在 Hub 上搜索 AG News 数据集，评估其质量和适用性
参考实现：在 GitHub 上搜索已有的实现，学习最佳实践
编写代码：生成完整的训练脚本，包括数据预处理、模型定义、训练循环
提交训练：将训练任务提交到 HF Jobs（需要审批）
监控实验：通过 Trackio 监控训练进度
分析结果：读取评测结果，分析模型性能
推送到 Hub：将训练好的模型上传到你的 Hub 仓库

整个过程你可能只需要审批一次（提交训练时），其他步骤全自动。

6.2 场景二：数据集微调

ml-intern "使用我的数据集 user/hf_username/my-custom-dataset 对 Phi-3 进行微调，用于情感分析任务"

Agent 会：

自动加载数据集并分析其结构
根据任务类型（情感分析）选择合适的微调策略
配置适合 Phi-3 的超参数
编写 LoRA/QLoRA 微调脚本（取决于模型大小和精度需求）
提交训练并监控

6.3 场景三：模型评估与比较

ml-intern "比较 Llama 3.1 8B 和 Mistral 7B 在 SQuAD v2 问答任务上的表现，给出详细评测报告"

Agent 会：

加载两个模型
在 SQuAD v2 上运行推理
计算 Exact Match 和 F1 分数
生成对比报告，包括错误分析
提出改进建议

七、高级配置与定制

7.1 自定义工具开发

ml-intern 的工具系统是可扩展的。你可以添加自定义工具：

# 编辑 agent/core/tools.py
from agent.core.types import ToolSpec

def create_builtin_tools() -> list[ToolSpec]:
    return [
        ToolSpec(
            name="your_tool",
            description="What your tool does",
            parameters={
                "type": "object",
                "properties": {
                    "param": {
                        "type": "string",
                        "description": "Parameter description"
                    }
                },
                "required": ["param"]
            },
            handler=your_async_handler
        ),
        # ... existing tools
    ]

每个工具由四个部分组成：名称、描述（LLM 用这个决定何时调用）、参数 schema、处理函数。

7.2 MCP Server 集成

ml-intern 支持通过 MCP（Model Context Protocol）连接外部工具服务器：

// configs/cli_agent_config.json
{
  "model_name": "anthropic/claude-sonnet-4-6:fal-ai",
  "mcpServers": {
    "your-server-name": {
      "transport": "http",
      "url": "https://example.com/mcp",
      "headers": {
        "Authorization": "Bearer ${YOUR_TOKEN}"
      }
    }
  }
}

环境变量如 ${YOUR_TOKEN} 会从 .env 文件中自动替换。

7.3 Slack 通知集成

ml-intern 支持通过 Slack 发送异步通知，适合长时间运行的训练任务：

# 配置 Slack
export SLACK_BOT_TOKEN=xoxb-xxxxxxxxxxxx
export SLACK_CHANNEL_ID=CXXXXXXXXX

Agent 会在需要审批、遇到错误或完成一轮处理时发送通知。你可以在配置文件中自定义：

{
  "messaging": {
    "enabled": true,
    "auto_event_types": ["approval_required", "error", "turn_complete"],
    "destinations": {
      "slack.ops": {
        "provider": "slack",
        "token": "${SLACK_BOT_TOKEN}",
        "channel": "${SLACK_CHANNEL_ID}",
        "allow_agent_tool": true,
        "allow_auto_events": true
      }
    }
  }
}

7.4 会话追踪与回溯

所有会话自动上传到私有 HuggingFace 数据集（Claude Code JSONL 格式），HF Agent Trace Viewer 可以自动检测并在 Hub 上可视化展示：

# 管理会话可见性
/share-traces                    # 查看当前状态
/share-traces public             # 公开分享
/share-traces private            # 设为私有

# 在配置中自定义数据集名称
{
  "personal_trace_repo_template": "{hf_user}/my-custom-traces"
}

# 完全禁用追踪
{
  "share_traces": false
}

这个功能对于团队协作和实验复现非常有价值。

八、性能优化与最佳实践

8.1 模型选择策略

不同任务需要不同能力的模型。ml-intern 支持多种模型选择：

任务类型	推荐模型	原因
复杂论文理解 + 代码生成	Claude Sonnet 4.6 / GPT-5.5	最强的推理和代码能力
一般 ML 任务	HF Router 模型（DeepSeek/Kimi）	性价比高，速度快
简单数据处理	本地 8B 模型	零成本，隐私安全
预算敏感	本地 llama.cpp 量化模型	极低资源需求

# 高端任务用 Claude
ml-intern --model anthropic/claude-sonnet-4-6:fal-ai "阅读最新论文并实现"

# 日常任务用 HF Router（通常更便宜）
ml-intern --model deepseek-ai/DeepSeek-V3 "帮我写个数据处理脚本"

# 完全离线
ml-intern --model ollama/llama3.1:8b "分析这个训练日志"

8.2 迭代次数控制

ml-intern 默认最大迭代 300 次。对于不同复杂度的任务，建议手动调整：

# 简单任务：限制迭代次数，节省 token
ml-intern --max-iterations 20 "写一个简单的数据加载脚本"

# 复杂任务：允许更多迭代
ml-intern --max-iterations 100 "从零实现 LoRA 微调并训练"

8.3 上下文管理策略

ml-intern 的自动压缩阈值是 170k token。对于涉及大量代码和论文内容的任务，建议：

分步执行：将大任务拆分为多个小步骤，每步一个命令
使用 /compact：在交互模式中手动触发上下文压缩
定期清理：完成后使用 /undo 清除不需要的历史

8.4 代码质量保障

ml-intern 集成了 Ruff 作为代码检查和格式化工具。每次提交前运行：

uv run ruff check .
uv run ruff format --check .

# 如果格式检查失败
uv run ruff format .

这确保 Agent 生成的代码符合 PEP 8 规范。

九、与其他 ML 自动化工具的对比

9.1 与 AutoML 工具的对比

维度	ml-intern	AutoML (如 AutoGluon)	Auto-sklearn
核心能力	端到端 ML 工程自动化	模型选择与超参数优化	经典 ML Pipeline
论文理解	✅ 能阅读和理解论文	❌	❌
代码生成	✅ 生成可读可改的代码	⚠️ 生成黑盒 Pipeline	❌
生态集成	✅ HuggingFace 全栈	⚠️ 部分框架	⚠️ scikit-learn
可解释性	✅ 完整代码 + 注释	❌ 黑盒模型	⚠️ 有限
交互性	✅ 对话式交互	⚠️ 配置式	❌
灵活性	✅ 任意 ML 任务	⚠️ 特定任务类型	❌ 表格数据

9.2 与通用 AI Agent 的对比

维度	ml-intern	Claude Code	Devin
ML 专业知识	✅ 深度集成	⚠️ 通用能力	⚠️ 通用能力
HF 生态	✅ 原生深度集成	❌ 需手动配置	❌ 需手动配置
云端 GPU	✅ HF Jobs 内置	❌	⚠️ 有限支持
论文理解	✅ HF Papers	❌	⚠️ 需手动粘贴
数据集检索	✅ Hub API	❌	❌
价格	免费（自备 API）	订阅制	订阅制
开源	✅ Apache 2.0	❌	❌

十、局限性分析与未来展望

10.1 当前局限

ml-intern 虽然强大，但并非万能：

1. 依赖 LLM 质量：Agent 的能力上限取决于底层 LLM 的推理能力。使用较小的本地模型时，复杂任务的成功率会明显下降。

2. 审批开销：安全机制虽然必要，但频繁的审批请求会打断自动化流程。目前在需要大量 GPU 操作的场景中，可能需要频繁确认。

3. 成本控制：使用 Claude/GPT 等高端模型时，复杂任务可能消耗大量 API token。300 次迭代 + 长上下文的组合，费用可能相当可观。

4. 错误恢复：虽然 Doom Loop Detector 能检测重复模式，但对于某些复杂的调试场景，Agent 仍可能陷入"修了一个 bug 引入三个新 bug"的循环。

5. 领域限制：目前主要针对 HuggingFace 生态内的任务。如果你的工作流涉及 PyTorch Lightning、W&B、MLflow 等非 HF 工具，集成度有限。

10.2 未来发展方向

基于项目架构和 HuggingFace 的路线图，ml-intern 可能的发展方向：

多模态支持：从文本扩展到图像、音频、视频的 ML 任务
团队协作：多用户共享会话，支持团队级别的实验管理
CI/CD 集成：与 GitHub Actions 等自动化工具深度集成
更多后端支持：Kubernetes、Ray 等集群计算后端
更智能的上下文管理：基于任务语义的智能压缩，而非固定 token 阈值

十一、总结

HuggingFace ml-intern 代表了 ML 工程自动化的一次重要尝试。它不是在造一个更聪明的代码编辑器，而是在重新定义"ML 工程师"的工作方式——从手动编写每一行训练代码，转变为向一个懂论文、懂数据、懂训练的 AI 实习生下达指令。

它的核心价值在于：

端到端自动化：从论文到部署的完整闭环，不再是零散工具的拼凑
深度生态集成：与 HuggingFace 全栈产品的原生集成，开箱即用
安全可控：审批机制和死循环检测保证了自动化不会失控
灵活可扩展：支持本地模型、自定义工具、MCP 协议

对于中小型 ML 团队和个人研究者，ml-intern 能显著降低 ML 工程的门槛和重复劳动。对于大型团队，它可以作为 ML Platform 的自然语言接口，让非专家也能发起训练和实验。

ML 工程自动化的未来，不是取代 ML 工程师，而是让 ML 工程师从重复劳动中解放出来，专注于真正有创造性的工作——提出新想法、设计新方法、解决真正困难的问题。

ml-intern 的 GitHub 地址：https://github.com/huggingface/ml-intern

许可证：Apache 2.0

参考资源：

HuggingFace ml-intern 官方仓库：https://github.com/huggingface/ml-intern
smolagents 框架：https://github.com/huggingface/smolagents
HuggingFace Inference Providers：https://huggingface.co/docs/inference-providers
HF Jobs 云计算：https://huggingface.co/docs/hub/jobs
LiteLLM 本地模型支持：https://github.com/BerriAI/litellm

复制全文生成海报 HuggingFace ml-intern AI Agent 机器学习开源项目