Personal Career Profile

姬弘飞

资深 AI 策略专家

“语言学 × AI 工程 × 教育科技 — 十年 C 端敏感受众 AI 落地经验”

AI 产品10 年教育科技从 0 到 1语言学硕士大模型深度实操

十年 C 端敏感受众 AI 落地经验。在过万日活、对错误容忍度几乎为零（儿童/教育）的复杂场景中，沉淀了极强的大模型业务落地嗅觉。深谙如何精准划定大模型的体验边界与商业 ROI。语言学及应用语言学硕士，兼具深厚的模型实操能力（Prompt/Agent、表征调控、监督微调）。对中英跨文化语义对抗、多模态内容安全围栏与价值观对齐有敏感度和实战经验。

HR 常见问题

你目前是在职还是离职状态？

4 月底交接完成，现在是离职状态，可以快速到岗。

你为什么要从上一家公司离职？

上一家是创业公司，产品年初上市后销量不及预期，公司资源因此向营销侧倾斜。我的主线是大模型产研，最主要的产品功能已经上市并且运转正常，业务线随之被裁撤。与其留任做 AI 营销赋能，我更希望继续专注大模型产品本身，寻找能持续深耕的方向。

看你最近这段时间跳槽比较频繁啊。

确实，最近几年变动多了一点。主要原因有两点：一是这几年教育侧做大模型落地还处在探索期，业务和技术变化非常快，很多时候需要快速验证、快速试错，短期内就能跑完一个完整的产品周期。二是「双减」给整个行业带来了根本性的改变，产品逻辑、商业模式都在重构，个人的职业路径也随之调整。时间上看起来变动快，但每个阶段都有完整的产品交付和可验证的结果。

看你简历你是学文科出身，为什么后来做算法工作了？

我是外国语言学及应用语言学专业，计算语言学方向硕士。虽然是文科，但主修计算语言学，上学期间就做过 NLP 基础算法（分词、情感分析）和语料库、语言测评相关的工程实战。洋葱时期我是以全栈开发身份加入的，后来基于题库数据独立做了一个自适应测评算法原型 Demo，得到了公司认可，顺势转入算法岗。我的学习上手速度很快，在算法领域成长也快，后面在洋葱做到首席算法工程师，在洪恩独立主导牛津大学出版社的测评引擎研发——这些都是有结果的。

为什么不做算法开发改做产品了，你是不是技术菜？

我的算法方向主要是自适应测评和 NLP，偏统计估计和测量学建模，在洋葱是首席算法工程师、在洪恩独立做牛津测评引擎，可以证明我的算法能力。转向产品主要两个原因：一是 21 年「双减」对测评业务冲击很大，比如 KET/PET 等主流测评业务撤出，业务上需要换个方向。二是那时候 Transformer 和 BERT 架构已经开始兴起，技术上可以进行一些准备和铺垫了。所以在那个节点选择去数据储备更强的公司（作业帮）做产品，是为了获得更宽的业务视角，而不是技术做不下去了。

你对工作地点有要求吗？

家庭原因，主要考虑北京的机会。

你有用 Vibe Coding 上线的产品吗？

有，日常主要用 Codex 和 Pi Agent Coding，以 Web App 形态居多，独立完成前后端和部署。以下是近期上线的产品：1. 凝词 AI（https://nints.pro/），短视频内容情绪结构抽象与生成引擎，简历里有详细介绍；2. 深水尺（https://deep-gauge.pages.dev/），独立研发的 LLM 问题剖析深度评估 Benchmark 和 Leaderboard；3. 10 秒英语生存挑战（https://vibe-tutor-two.vercel.app/），情景化练习英语口语反应速度和惯用语的 App。

工作经历

多奇（儿童双语桌面机器人）

AI 产品专家

2025.07 — 2026.04

从 0-1 设计两阶段 LLM 输出干预与容错架构，针对儿童高敏感合规场景建立安全围栏
引入 Qwen3 omni 设计异步验证+流式垫词合并策略，在 100% 内容安全审核下大幅降低首包延迟
搭建黄金对抗测试集与 LLM-as-a-Judge 双盲评估体系，实现线上复杂语义越狱的主动监控
通过 Harness 工程独立实现多模态内容处理管线，设计 PM Agents/Skills 提升团队协作效率

好未来（学而思学习机）

产品专家

2024.05 — 2025.07

带领团队设计 AI 互动课堂方案，集成语音检测与多模态大模型，A/B 测试体验核心指标提升 17%
设计离线批量预渲染+在线实时策略生成的混合调度链路，单维成本下降约 30%
通过深度埋点与舆情挖掘果断叫停低效 ChatBot 路线，转向工具化精准检索方案

作业帮（学习机）

算法产品经理

2022.08 — 2024.05

主导学习机推题-诊断底层分发策略建设，上线半年保持业务逻辑零客诉
设计 C 端需求到真人/供应商的高效匹配引擎，上线半年有效匹配达成率推高至 84%
结合 OCR 与 LLM 推理设计分步流式解析策略，早期探索大模型垂类落地应用

洪恩（分级阅读）

自适应算法工程师

2021.01 — 2022.05

主导牛津大学出版社少儿英语阅读自适应测评引擎，通过三轮测量学验证
建立题目参数自动训练与滚动调优机制，月度滚动结果与专家评估一致性达 96%
统一 4 条产品线数据埋点规范与分析模型，支撑近 80% 版本迭代数据需求

洋葱数学

首席算法工程师 / 数据组负责人

2015.06 — 2020.06

从 0-1 主导构建自适应分发引擎，融合 IRT、KT 与 CDM，实测信度 0.82、效度 0.94
通过语义解析与时序预估，聚类 12 类深层错误模式，实验组错题正确率提升 12%
作为首任数据组负责人，重构 OLAP 日志采集与 ETL 链路，建设管理层决策看板

Vibe Coding 项目

凝词 AI

短视频内容情绪结构抽象与生成引擎。将爆款文案拆解为情绪曲线、结构骨架与用户人设，再按目标人设和产品卖点重组生成垂类文案，解决 AIGC 文案同质化问题。

https://nints.pro/

深水尺

独立研发的 LLM 问题剖析深度评估 Benchmark 和 Leaderboard，用于系统化衡量大模型在复杂推理任务中的表现层次。

https://deep-gauge.pages.dev/

10 秒英语生存挑战

情景化练习英语口语反应速度和惯用语的 App，强调短时间内的高频交互与即时反馈。

https://vibe-tutor-two.vercel.app/

能力图谱

大模型产品与工程

Prompt / AgentLLM-as-a-Judge表征工程模型微调与量化流式处理TTS/音色设计

教育与测评

自适应学习认知诊断 CDM知识追踪 KTIRT 项目反应理论A/B Test

数据与技术

PythonSQL指标体系埋点采集漏斗/留存分析Vibe Coding

教育背景

北京外国语大学外国语言学及应用语言学

硕士2013 — 2015

北京语言大学对外汉语

学士2009 — 2013

JD 匹配分析

粘贴你要推荐的岗位 JD，系统会基于真实经历生成匹配度分析、定制简历和投递建议。