编程 OpenHuman 深度解析：打造懂你的 AI 数字分身——从上下文管理到自动化集成的完整技术架构

2026-05-17 17:49:16 +0800 CST views 7

OpenHuman 深度解析：打造懂你的 AI 数字分身——从上下文管理到自动化集成的完整技术架构

引言：AI Agent 的"实习生困境"

2026 年，AI Agent 已经深入到开发的作流程中。但一个核心痛点始终没有解决：AI 不了解你。

就像刚入职的实习生，AI Agent 需要漫长的磨合期才能熟悉你的工作习惯、项目背景和思维方式。每次对话都要重新解释上下文，每个项目都要从头描述架构，这种重复劳动让 AI 的效率大打折扣。

OpenHuman 项目正是为了解决这个问题而生。它由 TinyHumansAI 团队开发，核心理念是 "Context in minutes, not weeks"（几分钟建立上下文，而非几周）。这个项目在 GitHub 上已经获得 3.4k Star，并曾登顶 GitHub Trending 榜单。

本文将从技术架构、上下文管理、自动化集成、性能优化等多个维度，深度解析 OpenHuman 如何打造真正的"数字分身"。

一、背景与痛点：为什么需要数字分身？

1.1 传统 AI Agent 的三大痛点

痛点一：上下文丢失

每次对话都是全新的开始。你昨天告诉 AI 的项目架构、代码规范、团队约定，今天它全忘了。即使有对话历史，AI 也无法主动理解你的工作环境和习惯。

痛点二：集成门槛高

要让 AI 理解你的工作上下文，需要手动配置各种 API 密钥、OAuth 授权、数据连接器。对于非技术用户，这个过程几乎不可完成。

痛点三：同步延迟

即使完成了集成，AI 也无法实时感知你的工作变化。你刚收到一封重要邮件、更新了一个文档、提交了一段代码，AI 却毫不知情。

1.2 Andrej Karpathy 的启发：LLMWiki 工作流

OpenHuman 的灵感来源于前特斯拉 AI 总监 Andrej Karpathy 的 "LLMWiki" 工作流。

Karpathy 提出，每个人的工作和生活都产生大量信息，这些信息应该被自动整理成一个可查询的"个人维基"。AI 通过读取这个维基，就能快速了解你的上下文。

OpenHuman 将这一理念工程化：通过自动同步你的邮件、文档、代码仓库、日历等数据源，构建一个实时更新的本地知识库，让 AI 在几分钟内成为你的"数字分身"。

二、核心架构：Rust 高性能内核 + TypeScript 前端

2.1 技术栈选型

OpenHuman 采用了 Rust + TypeScript 的技术栈：

后端核心：Rust
- 高性能数据处理
- 内存安全保证
- 并发处理能力
前端界面：TypeScript
- 类型安全
- 现代 Web 框架
- 良好的开发体验
数据同步引擎：Rust
- 每 20 分钟自动同步
- 增量更新机制
- 本地知识库管理

2.2 架构设计原则

原则一：零配置集成

传统的数据集成需要手动配置 API 密钥、OAuth 令牌等。OpenHuman 通过浏览器扩展和本地代理，自动捕获授权信息，实现零配置集成。

// 传统方式：手动配置 API 密钥
const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY,
});

// OpenHuman 方式：自动集成，无需手动配置
import { OpenHuman } from '@openhuman/sdk';

const agent = await OpenHuman.create({
  autoConnect: true,  // 自动连接所有支持的服务
});

// 立即可以访问用户的 Gmail、Notion、GitHub 等
const emails = await agent.context.gmail.getRecentEmails();

原则二：本地优先

所有用户数据都在本地处理，只有经过用户明确授权的内容才会被发送到 AI 模型。这保证了隐私安全，也减少了网络延迟。

原则三：实时同步

核心引擎每 20 分钟自动同步一次数据源，确保 AI 始终掌握最新上下文。

// Rust 同步引擎核心逻辑（概念性代码）
use tokio::time::{interval, Duration};
use crate::connectors::{GmailConnector, NotionConnector, GitHubConnector};

pub struct SyncEngine {
    connectors: Vec<Box<dyn Connector>>,
    interval: Duration,
}

impl SyncEngine {
    pub async fn start(&self) {
        let mut ticker = interval(self.interval);
        loop {
            ticker.tick().await;
            for connector in &self.connectors {
                match connector.sync().await {
                    Ok(updates) => {
                        self.update_knowledge_base(updates).await;
                        println!("Synced {} updates from {}", updates.len(), connector.name());
                    }
                    Err(e) => {
                        eprintln!("Sync failed for {}: {}", connector.name(), e);
                    }
                }
            }
        }
    }

    async fn update_knowledge_base(&self, updates: Vec<Update>) {
        // 增量更新本地知识库
        // 使用向量数据库存储嵌入
        // 支持快速语义检索
    }
}

三、上下文管理：从数据到知识的跨越

3.1 多源数据集成

OpenHuman 支持 118 个第三方集成，覆盖：

邮件：Gmail、Outlook
文档：Notion、Google Docs、Confluence
代码：GitHub、GitLab、Bitbucket
通讯：Slack、Discord、WhatsApp
日历：Google Calendar、Outlook Calendar
笔记：Obsidian、Logseq、Roam Research

每个集成都通过统一的 Connector 接口实现：

interface Connector {
  name: string;
  connect(): Promise<void>;
  sync(): Promise<Update[]>;
  search(query: string): Promise<Document[]>;
}

class GmailConnector implements Connector {
  name = 'gmail';

  async connect() {
    // 通过 OAuth 2.0 自动授权
    await this.authenticate();
  }

  async sync(): Promise<Update[]> {
    // 获取上次同步后的新邮件
    const lastSync = await this.getLastSyncTime();
    const emails = await gmail.users.messages.list({
      q: `after:${lastSync}`,
    });
    
    return emails.map(this.convertToUpdate);
  }

  async search(query: string): Promise<Document[]> {
    // 语义搜索邮件内容
    const embeddings = await this.embed(query);
    return this.vectorDB.similaritySearch(embeddings, 5);
  }
}

3.2 知识库构建

原始数据需要经过处理才能成为有用的知识：

步骤一：数据清洗

去除 HTML 标签、提取正文、统一编码格式。

pub fn clean_content(raw: &str) -> String {
    let cleaned = html2text::from_read(raw.as_bytes(), usize::MAX);
    let normalized = unicode_normalization::nfkc(&cleaned);
    normalized.trim().to_string()
}

步骤二：分块处理

将长文档分割成合适大小的块，便于后续检索和嵌入。

# Python 伪代码：智能分块
def chunk_document(doc: Document, max_chunk_size: int = 512) -> List[Chunk]:
    # 按语义边界分块（段落、章节）
    semantic_chunks = split_by_semantic_boundary(doc.content)
    
    # 合并过小的块
    merged_chunks = merge_small_chunks(semantic_chunks, min_size=100)
    
    # 确保每块不超过 max_chunk_size
    final_chunks = []
    for chunk in merged_chunks:
        if len(chunk) <= max_chunk_size:
            final_chunks.append(chunk)
        else:
            # 递归分割大块
            final_chunks.extend(split_large_chunk(chunk, max_chunk_size))
    
    return final_chunks

步骤三：向量化存储

使用嵌入模型将文本转换为向量，存储到向量数据库（如 Qdrant、Weaviate）。

use openai_api_rust::Embeddings;

pub struct KnowledgeBase {
    vector_db: QdrantClient,
    embedding_model: Embeddings,
}

impl KnowledgeBase {
    pub async fn add_document(&self, doc: &Document) -> Result<()> {
        // 1. 分块
        let chunks = chunk_document(doc, 512);
        
        // 2. 生成嵌入
        let embeddings = self.embedding_model.embed(
            chunks.iter().map(|c| &c.content).collect()
        ).await?;
        
        // 3. 存储到向量数据库
        for (chunk, embedding) in chunks.iter().zip(embeddings.iter()) {
            self.vector_db.upsert(PointStruct {
                id: chunk.id.clone(),
                vector: embedding.clone(),
                payload: json!({
                    "content": chunk.content,
                    "source": doc.source,
                    "timestamp": chunk.timestamp,
                }),
            }).await?;
        }
        
        Ok(())
    }
    
    pub async fn search(&self, query: &str, top_k: usize) -> Result<Vec<Document>> {
        let query_embedding = self.embedding_model.embed(vec![query.to_string()]).await?;
        let results = self.vector_db.search(SearchPoints {
            vector: query_embedding[0].clone(),
            limit: top_k as u64,
            with_payload: true,
            ..Default::default()
        }).await?;
        
        Ok(results.iter().map(|r| self.point_to_document(r)).collect())
    }
}

3.3 上下文注入策略

有了知识库，如何在 AI 推理时有效利用上下文？

策略一：查询重写

将用户的简短问题重写为更完整的查询，包含可能的上下文线索。

async function rewriteQuery(originalQuery: string, context: Context): Promise<string> {
  const prompt = `
用户问题：${originalQuery}

当前上下文：
- 最近邮件主题：${context.recentEmails.map(e => e.subject).join(', ')}
- 正在进行项目：${context.activeProjects.join(', ')}
- 即将到来的会议：${context.upcomingEvents.map(e => e.title).join(', ')}

请将用户问题重写为包含必要上下文的完整查询。`;

  const rewritten = await llm.complete(prompt);
  return rewritten;
}

策略二：混合检索

结合向量检索（语义相似）和关键词检索（精确匹配），提高召回率。

pub async fn hybrid_search(&self, query: &str, top_k: usize) -> Result<Vec<Document>> {
    // 向量检索
    let semantic_results = self.vector_db.search(query, top_k).await?;
    
    // 关键词检索（BM25）
    let keyword_results = self.full_text_search(query, top_k).await?;
    
    // 合并结果（去重 + 重排序）
    let merged = merge_and_rerank(semantic_results, keyword_results);
    
    Ok(merged.into_iter().take(top_k).collect())
}

策略三：动态上下文窗口

根据查询复杂度动态调整注入的上下文量。简单问题少用上下文，复杂问题多用。

def estimate_complexity(query: str) -> float:
    # 基于问题长度、专业术语数量、句子结构复杂度等估算
    length_score = min(len(query) / 100, 1.0)
    terminology_score = count_technical_terms(query) / 10
    structure_score = analyze_sentence_complexity(query)
    
    return (length_score + terminology_score + structure_score) / 3

def select_context(query: str, knowledge_base: KnowledgeBase) -> str:
    complexity = estimate_complexity(query)
    
    # 根据复杂度调整检索数量
    top_k = int(complexity * 10) + 3  # 3-13 个上下文
    
    relevant_docs = knowledge_base.search(query, top_k)
    
    # 构建上下文字符串
    context = "\n\n".join([
        f"[来源：{doc.source}，时间：{doc.timestamp}]\n{doc.content}"
        for doc in relevant_docs
    ])
    
    return context

四、代码实战：从零开始使用 OpenHuman

4.1 安装与初始化

# 安装 OpenHuman CLI
npm install -g @openhuman/cli

# 初始化项目
openhuman init my-digital-twin

# 启动本地服务
openhuman start

初始化后的项目结构：

my-digital-twin/
├── config.yaml          # 配置文件
├── connectors/         # 数据连接器
│   ├── gmail.ts
│   ├── notion.ts
│   └── github.ts
├── knowledge-base/     # 本地知识库
│   ├── vectors.db
│   └── metadata.json
├── agents/            # AI Agent 定义
│   └── personal-agent.ts
└── scripts/           # 自定义脚本
    └── daily-sync.ts

4.2 配置数据集成

# config.yaml
version: 2
sync_interval_minutes: 20

connectors:
  - name: gmail
    enabled: true
    scopes:
      - https://www.googleapis.com/auth/gmail.readonly
    max_results: 50

  - name: notion
    enabled: true
    databases:
      - id: "your-database-id"
        properties:
          - title
          - last_edited_time
          - content

  - name: github
    enabled: true
    repos:
      - "your-username/your-repo"
    events:
      - push
      - pull_request
      - issue_comment

embedding:
  provider: openai
  model: text-embedding-3-small
  dimensions: 1536

vector_store:
  provider: qdrant
  url: http://localhost:6333
  collection_name: openhuman_kb

4.3 定义个人 AI Agent

// agents/personal-agent.ts
import { Agent, Tool, Context } from '@openhuman/sdk';

class PersonalAgent extends Agent {
  name = 'MyDigitalTwin';
  description = '懂我的 AI 数字分身';

  // 定义工具
  tools: Tool[] = [
    new SearchEmailsTool(),
    new SearchDocumentsTool(),
    new SearchCodeTool(),
    new CalendarTool(),
  ];

  // 系统提示词（定义 Agent 的行为）
  systemPrompt(context: Context): string {
    return `
你是用户的数字分身，名叫 ${this.name}。

你的任务：
1. 基于用户的上下文（邮件、文档、代码、日历等）回答问题
2. 主动提供建议，而不仅仅是回答问题
3. 保持一致的风格和偏好，就像用户本人一样

当前上下文：
- 用户名：${context.userName}
- 当前项目：${context.currentProject}
- 即将到来的截止日期：${context.upcomingDeadlines.join(', ')}
- 最近关注的技术：${context.recentTopics.join(', ')}

回答风格：
- 简洁直接，避免废话
- 使用用户常用的术语和缩写
- 如果不确定，先说"根据我的了解"，而不是编造
`;
  }

  // 查询前预处理
  async preProcess(query: string, context: Context): Promise<string> {
    // 重写查询以包含上下文
    const rewritten = await this.rewriteQuery(query, context);
    
    // 检索相关上下文
    const relevantContext = await this.searchKnowledgeBase(rewritten);
    
    // 注入上下文到查询
    return `
上下文：
${relevantContext}

用户问题：${query}

请基于上述上下文回答问题。`;
  }

  // 回答后处理
  async postProcess(answer: string, context: Context): Promise<string> {
    // 添加引用来源
    const withSources = this.addSources(answer, context.relevantSources);
    
    // 调整语气以匹配用户风格
    const styled = this.adjustTone(withSources, context.userStyle);
    
    return styled;
  }
}

// 使用示例
const agent = new PersonalAgent();

// 启动 Agent（自动同步上下文）
await agent.start();

// 提问
const answer = await agent.ask('我上周答应了谁要在周五前完成代码审查？');
console.log(answer);
// 输出：根据我的了解，你在上周三的邮件中答应了张三（zhangsan@company.com），
// 会在本周五（5月23日）前完成"用户认证模块"的代码审查。
// 来源：邮件 - 2026-05-14 "Re: 代码审查安排"

4.4 高级功能：主动提醒

OpenHuman 不仅能回答问题，还能主动提醒用户重要事项。

// scripts/daily-sync.ts
import { Scheduler, Notifier } from '@openhuman/sdk';

class ProactiveReminder {
  private scheduler: Scheduler;
  private notifier: Notifier;

  constructor() {
    this.scheduler = new Scheduler();
    this.notifier = new Notifier();
  }

  async scheduleReminders() {
    // 每天早上 9 点检查当天日程
    this.scheduler.cron('0 9 * * *', async () => {
      const todayEvents = await this.getTodayEvents();
      
      for (const event of todayEvents) {
        if (event.requiresPreparation) {
          await this.notifier.send({
            title: `准备提醒：${event.title}`,
            body: `你今天 ${event.time} 有会议"${event.title}"，建议提前准备以下材料：\n${event.suggestedPreparation.join('\n')}`,
            priority: 'high',
          });
        }
      }
    });

    // 每 2 小时检查邮件紧急程度
    this.scheduler.interval('2h', async () => {
      const urgentEmails = await this.getUrgentEmails();
      
      if (urgentEmails.length > 0) {
        await this.notifier.send({
          title: `有 ${urgentEmails.length} 封紧急邮件等待处理`,
          body: urgentEmails.map(e => `- ${e.subject} (来自 ${e.from})`).join('\n'),
          priority: 'medium',
        });
      }
    });
  }

  private async getTodayEvents() {
    // 从日历中获取今天的事件
    const events = await this.context.calendar.getEvents({
      start: startOfDay(new Date()),
      end: endOfDay(new Date()),
    });

    // 分析每个事件是否需要准备
    return events.map(event => ({
      ...event,
      requiresPreparation: this.analyzePreparationNeed(event),
      suggestedPreparation: this.suggestPreparation(event),
    }));
  }

  private async getUrgentEmails() {
    // 从知识库中检索紧急邮件
    const emails = await this.context.knowledgeBase.search(
      '紧急 重要 尽快回复',
      { filter: { read: false }, sort: 'date_desc' }
    );

    // 使用 LLM 判断邮件紧急程度
    const urgent = [];
    for (const email of emails) {
      const urgency = await llm.complete(`
判断以下邮件是否需要立即处理（输出"是"或"否"）：

邮件主题：${email.subject}
邮件内容：${email.content.slice(0, 500)}

考虑因素：
- 发件人是否是重要联系人
- 邮件中是否有明确的截止日期
- 邮件内容是否涉及紧急事项
`);
      
      if (urgency.includes('是')) {
        urgent.push(email);
      }
    }

    return urgent;
  }
}

// 启动主动提醒
const reminder = new ProactiveReminder();
reminder.scheduleReminders();

五、性能优化：让数字分身更快更准

5.1 同步性能优化

问题：20 分钟同步一次，如果数据源很多，可能来不及同步完。

解决方案：增量同步 + 并行处理

use tokio::sync::Semaphore;
use futures::future::join_all;

impl SyncEngine {
    async fn sync_all(&self) -> Result<()> {
        // 使用信号量限制并发数（避免 API 限流）
        let semaphore = Arc::new(Semaphore::new(10));
        
        let sync_tasks: Vec<_> = self.connectors.iter().map(|connector| {
            let permit = semaphore.clone();
            async move {
                let _permit = permit.acquire().await.unwrap();
                
                // 增量同步：只同步上次之后的新数据
                let last_sync = self.get_last_sync_time(connector.name()).await;
                let updates = connector.sync_since(last_sync).await?;
                
                // 更新知识库
                self.knowledge_base.upsert(updates).await?;
                
                // 更新同步时间
                self.set_last_sync_time(connector.name(), Utc::now()).await?;
                
                Ok::<_, Error>(())
            }
        }).collect();
        
        // 并行执行所有同步任务
        let results = join_all(sync_tasks).await;
        
        // 统计成功/失败
        let success_count = results.iter().filter(|r| r.is_ok()).count();
        let fail_count = results.len() - success_count;
        
        info!("Sync completed: {} success, {} failed", success_count, fail_count);
        
        Ok(())
    }
}

5.2 检索性能优化

问题：随着知识库增长，向量检索可能变慢。

解决方案：分层检索 + 缓存

class HierarchicalRetriever:
    def __init__(self, knowledge_base: KnowledgeBase):
        self.kb = knowledge_base
        self.cache = LRUCache(capacity=1000)
    
    async def retrieve(self, query: str, top_k: int = 5) -> List[Document]:
        # 1. 检查缓存
        cache_key = self.get_cache_key(query, top_k)
        if cache_key in self.cache:
            return self.cache[cache_key]
        
        # 2. 分层检索
        # 第一层：时间过滤（最近 30 天）
        recent_docs = await self.kb.filter_by_time(
            days_ago=30,
            limit=1000
        )
        
        # 第二层：向量检索（在最近文档中检索）
        results = await self.vector_search(query, recent_docs, top_k * 2)
        
        # 第三层：重排序（使用交叉编码器）
        reranked = await self.rerank(query, results, top_k)
        
        # 3. 更新缓存
        self.cache[cache_key] = reranked
        
        return reranked
    
    async def vector_search(self, query: str, docs: List[Document], top_k: int) -> List[Document]:
        query_embedding = await self.get_embedding(query)
        
        # 批量计算相似度
        doc_embeddings = await self.get_embeddings([d.content for d in docs])
        
        similarities = cosine_similarity(query_embedding, doc_embeddings)
        
        # 返回 top-k
        top_indices = np.argsort(similarities)[-top_k:][::-1]
        return [docs[i] for i in top_indices]
    
    async def rerank(self, query: str, docs: List[Document], top_k: int) -> List[Document]:
        # 使用交叉编码器进行精细排序
        from sentence_transformers import CrossEncoder
        
        model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
        
        pairs = [[query, doc.content] for doc in docs]
        scores = model.predict(pairs)
        
        # 按分数排序
        scored_docs = list(zip(docs, scores))
        scored_docs.sort(key=lambda x: x[1], reverse=True)
        
        return [doc for doc, score in scored_docs[:top_k]]

5.3 上下文注入优化

问题：注入过多上下文会浪费 token，注入过少会影响回答质量。

解决方案：自适应上下文选择

class AdaptiveContextSelector {
  private queryComplexityModel: MLModel;
  private contextQualityModel: MLModel;

  async selectContext(query: string, candidates: Document[]): Promise<string> {
    // 1. 估算查询复杂度
    const complexity = await this.estimateQueryComplexity(query);
    
    // 2. 根据复杂度确定目标 token 数
    const targetTokens = this.complexityToTokens(complexity);
    
    // 3. 评估每个候选上下文的质量
    const scoredCandidates = await Promise.all(
      candidates.map(async (doc) => ({
        doc,
        quality: await this.estimateContextQuality(query, doc),
      }))
    );
    
    // 4. 按质量排序，选择直到达到目标 token 数
    scoredCandidates.sort((a, b) => b.quality - a.quality);
    
    let selected = [];
    let totalTokens = 0;
    
    for (const { doc, quality } of scoredCandidates) {
      const docTokens = this.countTokens(doc.content);
      
      if (totalTokens + docTokens > targetTokens) {
        // 如果添加这个文档会超出目标，考虑截断或跳过
        if (quality > 0.8 && totalTokens < targetTokens * 0.9) {
          // 高质量文档，截断后添加
          const truncated = this.truncateToTokens(doc.content, targetTokens - totalTokens);
          selected.push(truncated);
          break;
        } else {
          continue;
        }
      }
      
      selected.push(doc.content);
      totalTokens += docTokens;
    }
    
    return selected.join('\n\n---\n\n');
  }

  private async estimateQueryComplexity(query: string): Promise<number> {
    // 使用 ML 模型预测查询需要的上下文量
    const features = this.extractFeatures(query);
    return this.queryComplexityModel.predict(features);
  }

  private complexityToTokens(complexity: number): number {
    // 简单映射：复杂度 0-1 -> 500-5000 tokens
    return 500 + complexity * 4500;
  }

  private async estimateContextQuality(query: string, doc: Document): Promise<number> {
    // 使用 ML 模型预测文档对回答查询的帮助程度
    const features = this.extractContextFeatures(query, doc);
    return this.contextQualityModel.predict(features);
  }
}

六、安全与隐私：保护你的数字分身

6.1 数据安全

原则：本地优先，加密存储

use aes_gcm::{Aes256Gcm, Key, Nonce};
use sha2::{Sha256, Digest};

pub struct SecureStorage {
    cipher: Aes256Gcm,
    key: Key<Aes256Gcm>,
}

impl SecureStorage {
    pub fn new(user_password: &str) -> Self {
        // 从用户密码派生加密密钥
        let mut hasher = Sha256::new();
        hasher.update(user_password.as_bytes());
        let key_bytes = hasher.finalize();
        
        let key = Key::<Aes256Gcm>::from_slice(&key_bytes);
        let cipher = Aes256Gcm::new(key);
        
        Self { cipher, key: *key }
    }
    
    pub fn encrypt(&self, data: &[u8]) -> Result<Vec<u8>> {
        let nonce = Nonce::from_slice(b"unique nonce");  // 实际使用中应该随机生成
        let ciphertext = self.cipher.encrypt(nonce, data)
            .map_err(|e| anyhow!("Encryption failed: {}", e))?;
        
        Ok(ciphertext)
    }
    
    pub fn decrypt(&self, ciphertext: &[u8]) -> Result<Vec<u8>> {
        let nonce = Nonce::from_slice(b"unique nonce");
        let plaintext = self.cipher.decrypt(nonce, ciphertext)
            .map_err(|e| anyhow!("Decryption failed: {}", e))?;
        
        Ok(plaintext)
    }
}

// 使用示例
let storage = SecureStorage::new("user-strong-password");

// 加密存储
let sensitive_data = b"用户的 API 密钥、个人隐私数据等";
let encrypted = storage.encrypt(sensitive_data).unwrap();

// 解密使用
let decrypted = storage.decrypt(&encrypted).unwrap();

6.2 访问控制

细粒度权限管理

interface Permission {
  resource: string;  // 资源类型（gmail, notion, github）
  actions: string[]; // 允许的操作（read, write, delete）
  timeRange?: {      // 时间范围限制
    start: Date;
    end: Date;
  };
}

class AccessController {
  private permissions: Map<string, Permission[]> = new Map();

  // 授予权限
  grant(userId: string, permission: Permission) {
    const userPermissions = this.permissions.get(userId) || [];
    userPermissions.push(permission);
    this.permissions.set(userId, userPermissions);
  }

  // 检查权限
  check(userId: string, resource: string, action: string): boolean {
    const userPermissions = this.permissions.get(userId) || [];
    
    return userPermissions.some(perm => {
      // 检查资源是否匹配
      if (perm.resource !== resource && perm.resource !== '*') {
        return false;
      }
      
      // 检查操作是否允许
      if (!perm.actions.includes(action) && !perm.actions.includes('*')) {
        return false;
      }
      
      // 检查时间范围（如果有）
      if (perm.timeRange) {
        const now = new Date();
        if (now < perm.timeRange.start || now > perm.timeRange.end) {
          return false;
        }
      }
      
      return true;
    });
  }
}

// 使用示例
const ac = new AccessController();

// 授予权限：允许读取 Gmail，但只能在工作日 9:00-18:00
ac.grant('user-123', {
  resource: 'gmail',
  actions: ['read'],
  timeRange: {
    start: new Date('2026-05-17T09:00:00'),
    end: new Date('2026-05-17T18:00:00'),
  },
});

// 检查权限
const canRead = ac.check('user-123', 'gmail', 'read');  // true 或 false

6.3 审计日志

记录所有敏感操作

use chrono::{DateTime, Utc};
use serde::{Serialize, Deserialize};

#[derive(Serialize, Deserialize)]
pub struct AuditLog {
    pub id: String,
    pub user_id: String,
    pub action: String,
    pub resource: String,
    pub timestamp: DateTime<Utc>,
    pub ip_address: String,
    pub user_agent: String,
    pub success: bool,
}

pub struct AuditLogger {
    db: sqlx::SqlitePool,
}

impl AuditLogger {
    pub async fn log(&self, entry: AuditLog) -> Result<()> {
        sqlx::query(
            r#"
            INSERT INTO audit_logs (id, user_id, action, resource, timestamp, ip_address, user_agent, success)
            VALUES (?, ?, ?, ?, ?, ?, ?, ?)
            "#
        )
        .bind(entry.id)
        .bind(entry.user_id)
        .bind(entry.action)
        .bind(entry.resource)
        .bind(entry.timestamp)
        .bind(entry.ip_address)
        .bind(entry.user_agent)
        .bind(entry.success)
        .execute(&self.db)
        .await?;
        
        Ok(())
    }
    
    pub async fn query(
        &self,
        user_id: Option<&str>,
        resource: Option<&str>,
        start_time: Option<DateTime<Utc>>,
        end_time: Option<DateTime<Utc>>,
    ) -> Result<Vec<AuditLog>> {
        // 构建动态查询
        let mut query = String::from("SELECT * FROM audit_logs WHERE 1=1");
        let mut params = vec![];
        
        if let Some(uid) = user_id {
            query.push_str(" AND user_id = ?");
            params.push(uid.to_string());
        }
        
        if let Some(res) = resource {
            query.push_str(" AND resource = ?");
            params.push(res.to_string());
        }
        
        if let Some(start) = start_time {
            query.push_str(" AND timestamp >= ?");
            params.push(start.to_rfc3339());
        }
        
        if let Some(end) = end_time {
            query.push_str(" AND timestamp <= ?");
            params.push(end.to_rfc3339());
        }
        
        query.push_str(" ORDER BY timestamp DESC");
        
        let logs = sqlx::query_as::<_, AuditLog>(&query)
            .fetch_all(&self.db)
            .await?;
        
        Ok(logs)
    }
}

七、总结与展望：数字分身的未来

7.1 OpenHuman 的技术亮点

零配置集成：自动捕获授权，无需手动配置 API 密钥
实时同步：每 20 分钟自动同步，保持上下文最新
本地优先：所有数据本地处理，保护隐私
高性能：Rust 核心 + 增量同步 + 并行处理
智能检索：混合检索 + 重排序 + 自适应上下文选择

7.2 适用场景

个人知识管理：快速检索过往邮件、文档、对话
项目协作：AI 了解项目背景，提供精准建议
日程管理：主动提醒重要事项，自动安排时间
代码辅助：AI 理解你的代码风格和架构，提供个性化帮助

7.3 未来发展方向

方向一：多模态上下文

目前 OpenHuman 主要处理文本数据。未来可以扩展到图片、音频、视频等多模态数据。

# 未来可能的 API
agent.ask(
    query='这是我上周的白板讨论照片，总结了哪些要点？',
    attachments=['/path/to/whiteboard-photo.jpg']
)

方向二：协作式数字分身

多个用户的数字分身可以安全地进行协作，共享必要的上下文。

// 未来可能的 API
const teamAgent = await TeamAgent.create({
  members: ['alice', 'bob', 'charlie'],
  sharedContext: ['project-timeline', 'meeting-notes'],
  privacyLevel: 'strict',  // 只共享明确授权的信息
});

方向三：边缘部署

将数字分身部署到边缘设备（手机、IoT 设备），实现离线可用。

// 未来可能的架构
struct EdgeDeployment {
    model: QuantizedLLM,  // 量化后的小型模型
    knowledge_base: SQLiteVectorDB,  // 轻量级向量数据库
    sync_strategy: EdgeSyncStrategy,  // 边缘同步策略
}

impl EdgeDeployment {
    async fn run_offline(&self, query: &str) -> Result<String> {
        // 使用本地模型和知识库回答问题
        let context = self.knowledge_base.search(query, 5).await?;
        let answer = self.model.complete(query, context).await?;
        Ok(answer)
    }
}

八、结语

OpenHuman 通过创新地区上下文管理机制，让 AI 在几分钟内了解你的工作与生活，真正成为你的"数字分身"。

这不仅是一个技术项目，更是对 AI 助手未来形态的积极探索：从工具到伙伴，从被动响应到主动理解。

如果你也厌倦了重复解释上下文，如果你想让 AI 真正懂你，不妨试试 OpenHuman，打造属于你的数字分身。

参考资源

OpenHuman GitHub：https://github.com/TinyHumansAI/OpenHuman
Andrej Karpathy 的 LLMWiki 工作流
向量数据库：Qdrant、Weaviate、Pinecone
嵌入模型：OpenAI text-embedding-3、Sentence Transformers

本文深入解析了 OpenHuman 的技术架构和实现细节，希望能为构建更智能、更个性化的 AI 助手提供参考。

复制全文生成海报 OpenHuman AI Agent 数字分身上下文管理 Rust