大模型架构
1) 总体闭环(Control Loop) Perception (多模态输入) ↓ Fusion (对齐+融合) ↓ Cognition Core (价值驱动的世界模型/规划/不确定性评估) ↔ Retrieval Orchestrator (向“库”发多跳检索+工具使用) ↓ Decision: {直接输出 | 继续检索 | 询问 (人/代理/工具) | 延迟并学习} ↓ Actuators (多模态输出: 文本/语音/图像/图表/代码/动作) ↓ Write-back (把新知识/反馈写回“库”,更新价值函数与策略) 2) 多模态输入:更“像人”的感知层 通道与编码器 文字:Tokenizer/语义编码(LLM/Transformer)。 语音:ASR(流式更好)+ 说话人分离;保留时序对齐。 图片/视频:VLM 编码(区域特征、对象检测、OCR 文本抽取)。 桌面/传感器/日志:结构化解析为事件流(time, source, entities)。 对齐与融合 早期融合(共享编码器)+ 晚期融合(跨模态注意力);统一到“事件-实体-关系”的中间语义图(见§4 的库设计)。 流式/增量 支持 streaming:边输入边推理(对长语音/视频尤其关键),将“可用片段”优先交给认知层评估。 3) 认知(价值驱动,而非相似度驱动) 核心是从“检索相似文本”升级到“在价值函数下决策”。 ...