人工智能 | Sun Weixiao's Blog

大模型架构

1) 总体闭环（Control Loop） Perception (多模态输入) ↓ Fusion (对齐+融合) ↓ Cognition Core (价值驱动的世界模型/规划/不确定性评估) ↔ Retrieval Orchestrator (向“库”发多跳检索+工具使用) ↓ Decision: {直接输出 | 继续检索 | 询问 (人/代理/工具) | 延迟并学习} ↓ Actuators (多模态输出: 文本/语音/图像/图表/代码/动作) ↓ Write-back (把新知识/反馈写回“库”，更新价值函数与策略) 2) 多模态输入：更“像人”的感知层通道与编码器文字：Tokenizer/语义编码（LLM/Transformer）。语音：ASR（流式更好）+ 说话人分离；保留时序对齐。图片/视频：VLM 编码（区域特征、对象检测、OCR 文本抽取）。桌面/传感器/日志：结构化解析为事件流（time, source, entities）。对齐与融合早期融合（共享编码器）+ 晚期融合（跨模态注意力）；统一到“事件-实体-关系”的中间语义图（见§4 的库设计）。流式/增量支持 streaming：边输入边推理（对长语音/视频尤其关键），将“可用片段”优先交给认知层评估。 3) 认知（价值驱动，而非相似度驱动）核心是从“检索相似文本”升级到“在价值函数下决策”。 ...

大模型辅助生成ABSA数据集

大语言模型辅助的 ABSA 全面优化方案（Markdown 版）目标：在 ABSA（Aspect-Based Sentiment Analysis）任务中，系统性利用大语言模型（LLM）提升训练数据质量与多样性，覆盖 ATE / OTE / ASC / ASTE(ACOS) 四类（子）任务，并与现有结构化模型（如 RoBERTa-SSGCN / AOAN / DAGCN）无缝结合。 ...

SSGCN结构

📌 改进版 SSGCN 模型整体结构（含模糊逻辑层） 1. 输入层模型输入包含：文本输入： input_ids [B, S] attention_mask [B, S] 依存图输入： edge_index [2, E] （依存关系边） edge_weight [E] （边权重） Aspect 位置信息： aspect_pos [B, n_aspect_tokens] 👉 输入既有句子序列，又有句法依存结构，属于多模态输入。 ...