非结构化数据是成功部署 AI 的关键吗？

Source: Alex Kantrowitz

URL: https://www.youtube.com/watch?v=9-4kiL6tEOw

为什么 AI 试点总是难以落地 [00:00:00 - 00:14:19]
Hyland：把内容变成企业上下文 [00:14:19 - 00:29:12]
Michael Campbell：企业上下文引擎与 agent 生命周期 [00:29:31 - 00:47:40]
Partha Srinivasa：保险理赔里的非结构化数据 [00:47:52 - 01:12:15]
结语：人类在环、信任与持续监控 [01:12:15 - 01:13:11]

为什么 AI 试点总是难以落地

Alex Kantrowitz：我们在这档节目里经常聊到，很多公司都想把 AI 真正用起来，但最后的效果并不好。ROI（投资回报）总是不够，战略也未必到位，我们还在弄清楚究竟卡在了哪里。今天我们来到 Hyland 的 CommunityLIVE 现场，想和这家公司聊一聊：他们是怎么理解“把 AI 试点做成真正能进生产、能产生 ROI 的东西”这件事的。今天会有三段对话。第一段是 Hyland 的 CEO Jitesh Ghai；第二段是公司的 CPO Michael Campbell；最后我们会和 Erie Insurance 的 CIO Partha Srinivasa 聊一聊，看看一家保险公司到底是怎么把 agentic AI 真的用起来的。这期对话由 Hyland 赞助。很高兴来到这里，和 Hyland 的 CEO Jitesh Ghai 一起聊。Jitesh，欢迎来到节目。很高兴见到你。谢谢邀请。 [00:00:00]

Alex Kantrowitz：我先把问题摆出来。我们节目里一直在讲，公司在 AI 上投入不少，但 ROI 很多时候还是出不来。举几个最近聊过的例子：Starbucks 想用 AI 做库存管理，后来似乎就没继续推进了；Uber 的 COO 也说过，他们没能从 AI 里找到预期的生产力提升。还有一项研究显示，所有被消耗掉的 token 里，只有 18% 真正被带到了生产环境，82% 都没有落地。讲“token maxing”当然容易，但这些 token 是为了提升生产力才花出去的，却没能进入生产环境。你深耕这个行业，我们接下来还会和你的一位同事、还有一位客户聊，讨论这件事到底该怎么做。你怎么看今天围绕 AI 生产力的这些争论？真正的答案可能是什么？

Jitesh S. Ghai：我觉得这里面有两个层面，一个是心理层面，一个是关键的技术层面。先说心理层面。有时候，做一个 pilot 其实很容易，它能缓解你的 FOMO，也就是“害怕错过”的焦虑，让你觉得自己在做事。但如果一个组织并不是认真地去拥抱这项变革性的技术，这类试点通常都会失败。因为它们从一开始就不是为了真正改变工作方式而设计的。

Jitesh S. Ghai：再说技术层面。你现在谈的其实不是“拿一个现成的大模型，随便 fine-tune 一下就完事”这么简单。我们可以先拿数据与分析世界做类比。往回看十年，Hadoop 和 Spark 曾经承诺过“petabyte 级分析”，大家当时把所有结构化数据从 ERP、CRM、HCM 这些系统里全都倒进某个平台，以为自己在建 data lake（数据湖），结果最后很多人建出来的，其实是 data swamp（数据沼泽）。问题就在这里。只把数据堆起来，远远不够；你需要的是一个能让组织真正行动起来的系统，它要能理解最新数据，真正做出判断，然后把动作执行下去。只有这样，企业才会看到结果。

Alex Kantrowitz：所以，我理解得没错的话，你的意思是，企业不能只靠“模型 + 一点数据”的思路来做 AI，而是要有一个更复杂的系统。这个系统要能够跟上最新数据，能理解这些数据，再把它推进到下一步执行，最后才会看到真正的业务结果。是不是这个意思？

Jitesh S. Ghai：对，没错。我们其实可以把企业里的内容世界，和公共互联网做个对照。在公共互联网里，你能看到的是博客、文章和各种内容；但企业里的内容长什么样？如果我们拿一家银行举例，你会看到客户合同、身份信息、贷款资料、抵押贷款资料、各类表单和证明文件。再拿医疗行业举例，医生面对的是病历、检查结果、影像资料、转诊记录，还有大量围绕患者和护理流程的文档。企业里很多最关键的工作，本质上都是“围绕文档的工作”。过去这些工作都要靠人来读、来搬运、来录入，因为我们还没有技术把文档赋予结构。现在我们有了。

Jitesh S. Ghai：Hyland 很荣幸能成为这些受高度监管行业里、那些 mission-critical 非结构化数据的可信保管者。我们服务的对象包括医疗机构、保险公司、银行、政府机构，以及高等教育机构。这些行业处理的数据都非常敏感，里面有大量 PII（个人可识别信息）、PHI（受保护健康信息）以及很多对个人和组织都很重要的上下文信息。现在，LLM 如果能在一个受治理的框架里阅读这些文档，它就可以做很多以前做不到的事。比如在医疗场景里，患者说出症状和身份信息后，系统可以拿这些信息去对比类似患者、医院指南和治疗方案，再给出建议。重点不是让 AI 去取代医生，而是让医生、护士和知识工作者不要把大量时间浪费在“读文档、搬信息”这种机械劳动上，而是回到他们真正的专业工作上。

Alex Kantrowitz：这正是我想顺着问的。假设你现在从基层医疗转诊到专科，专科医生当然需要很多信息，但他们并不需要关于这个患者的一切，只需要和当前任务相关的部分。现实里，这些信息可能散落在不同系统里：以前的就诊记录、影像资料、其他临床信息等等。今天往往要靠人工把这些东西一条条收集起来，这太费时了。那 Hyland 所说的 true enterprise context，到底是怎么把这些东西更快地找出来、收集起来、交付出去的？

Jitesh S. Ghai：对，问题就在这里。你说的这个场景里，相关信息确实散落在很多系统中。现在人工去收集，常常要耗费好几周，甚至更久。如果一个患者的病情需要尽快处理，这些时间其实就是被浪费掉了。Hyland 现在做的事情，就是把这些信息更好地聚合起来，让它更容易被发现、被收集、被传递，而且要快得多。这样一来，原本要花好几周的流程，就能被大幅压缩。这个逻辑不只适用于医疗转诊，也适用于销售订单、贷款审批、抵押贷款审批、保险理赔等等所有以文档为中心的工作。过去我们需要人去做这些流程，是因为没有技术给文档赋予结构。现在如果你能给它们结构化，就能让 AI 和 agent 拿到做决策、执行动作所需要的上下文。换句话说，企业真正需要的是“内容 + 上下文 + 行动”这一整套东西，而不是单独一个模型。

Jitesh S. Ghai：这也是为什么我一直强调，企业内容管理（enterprise content management，ECM）这个行业存在了几十年，并不是偶然。它的使命从一开始就是做最关键数据的可信保管者，因为里面有 PII、PHI 这类受监管信息。你必须确保，企业里的任何人只有在被授权时才能访问这些内容。这个已经建立起来的访问控制和治理体系，天然就应该延伸到 AI 和 agents 里，让它们在一个合规、可控的框架中工作。只有这样，企业才会真正以信心去把生产工作负载推进到现场，而不是停留在实验室里。

Hyland：把内容变成企业上下文

Alex Kantrowitz：这就引出另一个问题了。你刚刚反复提到 unstructured data（非结构化数据）。那它到底是怎么被 AI agents 使用的？因为在很长一段时间里，公司做决策依赖的主要还是结构化数据：财务系统、ERP、CRM 这些记录很整齐；但文档、图片、邮件、合同、病历这些东西，才是企业真实世界里的大头。 [00:14:19]

Jitesh S. Ghai：对。我们先回到银行。你会有客户合同、身份材料、交易信息、抵押资料；如果是医疗，你会有病历、检查图像、医生笔记；如果是保险，你会有保单、理赔材料、事故证明、理赔员记录。所有这些内容过去都被当作“文件”存起来，但它们其实携带的是上下文。现在的任务就是把这些上下文提出来，让 AI 可以用、可以判断、可以执行。这里的核心不是替代 structured data（结构化数据），而是把 unstructured data 叠加到结构化数据之上，去增强后者的判断力。这样一来，AI 不只是“看到字段”，而是能看到整个业务语境。

Jitesh S. Ghai：再举一个销售订单的例子。客户发来订单之后，以前往往要有人去读文件、解析内容，然后把关键信息录入 CRM，告诉系统这位客户已经做了采购决定，买了哪些产品、价格是多少。现在这些事情很多都可以自动化。我们之所以过去需要那么多人来处理这些 workload，是因为没有技术能把文档变成结构化信息。现在技术有了。你一旦能给文档赋结构，就能让 AI 和 agents 拿到所需 context，去做你希望他们做的决策和动作。这也是为什么我说，真正有效的 AI 不是“一个大模型到处问答”，而是一个能持续读取最新信息、按治理规则行动、并且和业务流程深度耦合的系统。

Alex Kantrowitz：所以你说的本质上是，企业过去把文件系统当成存档柜，现在应该把它变成上下文引擎。对吧？

Jitesh S. Ghai：没错。而且在医疗里，这一点尤其明显。比如一个病人从 primary care（全科/初级诊疗）转到 specialist（专科医生），专科医生只需要和当前任务相关的信息，不需要把这个人的整个人生都读一遍。但今天这些信息——既往就诊、影像、病历摘要、记录、各类附件——分散在不同系统里，人工收集既慢又容易漏。我们做的事情，就是让它更可发现、更可聚合、更可传递，让整个流程从“周”级缩短到“分钟”级。患者更快得到治疗，机构也更快完成工作流，这才是真正的效率提升。

Jitesh S. Ghai：这背后其实是一个更大的趋势：很多原本由知识工作者完成的、围绕文档的任务，现在都可以机器速度执行。你可以更快处理贷款、更快做病人护理、更快处理抵押贷款、更快发放保单、更快处理理赔、也更快把人们真正需要的资金送到位。我们强调的不是“少一个人”，而是“让人去做更有价值的事”。

Alex Kantrowitz：那如果 LLM 可以读这些文档，又能在一个受治理的框架里工作，它是不是就可以直接把很多流程自动跑起来？

Jitesh S. Ghai：对，这就是关键。现在很多企业流程并不是不能自动化，而是因为文档没有结构、上下文分散，所以自动化链路断在中间。你一旦把上下文提取出来，AI 就能知道什么该做、什么不该做；而且因为它运行在合规框架里，你还能把风险控制住。我们在很多行业里都看到这种模式：医疗、银行、政府、教育、保险。你可以让 system 去理解内容、理解上下文，然后把它变成工作流的一部分，而不是把它留在存档里。

Alex Kantrowitz：我还想问一个大家现在很关心的问题：如果 AI agents 在企业里真的开始做事了，你怎么保证它们不会越界？

Jitesh S. Ghai：这就要靠 agent control tower（agent 控制塔）和一整套生命周期管理。你要能创建 agent、测试它、验证它、把它上线、再派生出它的变体和版本。更重要的是，如果某个 agent 开始做你不想让它做的事，你必须能马上把它关掉。我们把这叫做 kill switch（熔断开关）。如果 agent 行为不对，你就立刻停止它。到目前为止，我们还没有看到所谓“失控突破边界”的情况，但我们确实在努力确保这种情况不会发生。换句话说，企业级 AI 不是“放出去就不管”，而是“可验证、可撤回、可追踪、可停止”。

Alex Kantrowitz：这就让我想到另一个问题，银行业也是类似的场景吧？治理要求、合规要求都很强，金融信息不能乱跑，和健康信息一样敏感。你们怎么和银行合作？

Jitesh S. Ghai：我们服务的行业普遍都有一个共同点：它们都属于高度监管行业，拥有大量 PII 和高敏感内容。银行当然就是其中之一。我们之所以在这些行业里深耕，是因为这里最需要“内容 + 治理 + 上下文”的组合。并不是因为这些行业更容易，而是因为它们的问题最真实、最复杂，也最值得被解决。

Michael Campbell：企业上下文引擎与 agent 生命周期

Alex Kantrowitz：现在我们已经从 Jitesh 这里听到 Hyland 如何理解“内容就是上下文”。接下来让我们请出公司的 CPO Michael Campbell，深入聊聊产品层面到底怎么运作。Mike，欢迎回来，很高兴见到你。 [00:29:31]

Michael Campbell：谢谢邀请，很高兴见到你。

Alex Kantrowitz：我们先从最基础的问题开始。这个产品到底在做什么？它为什么重要？

Michael Campbell：核心就是把企业里原本分散的内容，变成 AI 和 agents 可以真正使用的上下文。你可以把它理解成一个 enterprise context engine（企业上下文引擎）。企业里的内容不会只存在于一个地方：它可能在内容仓库里、在业务系统里、在各种文档和记录里。我们的工作是把这些信息接起来，让它们不只是“可存”，而是“可理解、可调用、可执行”。这样一来，AI 就不是在真空里做判断，而是在业务现场做判断。

Alex Kantrowitz：也就是说，你们不是在做一个单独的聊天机器人，而是在给企业里的多个 agent 提供工作所需的上下文？

Michael Campbell：正是如此。这不仅仅是“一个 agent 做一件事”。现实里会有很多 agent：有的面对客户，有的面对员工，有的在后台做抽取、分类、路由，有的负责触发工作流。我们的目标是让这些 agent 都能拿到正确的上下文，知道该看什么、该忽略什么、该执行什么。比如一笔销售订单进来，系统可以自动理解内容，更新 CRM，甚至把后续步骤串起来。再比如文档中心的任务，我们可以让系统读取、整理、分发，而不是让人一页页处理。

Alex Kantrowitz：听起来你们解决的，其实是“文档中心工作”里最令人头疼的那部分：人要去读、去抄、去搬运、去整理。

Michael Campbell：对。很多组织过去不得不让人干这些事，不是因为人更适合，而是因为技术不够。现在我们可以把这类工作自动化，让人回到更高价值的工作上。尤其是在高度监管行业里，文档背后还有合规、保留、权限、审计这些要求，所以你不能随便做。企业上下文引擎的意义就在于，它既要让 AI 拿到足够的上下文，又要保证这条链路在治理上是可控的。

Alex Kantrowitz：所以你们也得面对同一个问题：AI 不是只要“能做”就行，还要“能管”。

Michael Campbell：完全正确。实际落地时，企业需要的不是一个黑箱，而是一套完整的 agent 生命周期管理能力。你要能创建、测试、验证、上线，还要能派生不同版本、做实验、回滚、关闭。我们说的控制塔并不是比喻，它真的应该像控制塔一样，让你知道每一个 agent 在做什么、是否还符合预期、是否需要停掉。没有这层能力，企业不可能放心把关键流程交给 AI。

Alex Kantrowitz：这也就是为什么你们强调 kill switch。

Michael Campbell：没错。kill switch 是非常重要的最后一道保险。你要让系统能在发现异常时立即停下来，不继续往前走。再加上生命周期管理和验证机制，企业才有可能把 agent 从试验推进到生产。换句话说，我们不是在追求“把 AI 放出去”，而是在追求“把 AI 安全、可控地送进工作流里”。

Alex Kantrowitz：这跟医疗、保险、银行这些行业的需求几乎是同构的。

Michael Campbell：对，没错。我们服务的都是高度监管行业，业务环境里有大量敏感信息，治理和上下文的重要性都非常高。你不能让 agent 只凭一个模糊提示词就去做决定，你必须让它知道背景、任务、限制、权限边界，以及如果有异常该怎么办。这才是企业级 AI。

Alex Kantrowitz：那从产品角度讲，企业如果想把 AI 做成真正的业务能力，而不是一次 demo，需要先解决哪几个问题？

Michael Campbell：第一，得把分散在各处的内容聚合起来，形成 context。第二，得有治理和安全边界，知道谁能看、谁能做、谁能触发什么。第三，得把 agent 生命周期做完整，包括测试、验证、上线和撤回。第四，得能把这些 agent 放到真实工作流里，而不是停留在实验室。只要这四件事串起来，AI 才真正有机会从“看起来很聪明”变成“真的能干活”。

Partha Srinivasa：保险理赔里的非结构化数据

Alex Kantrowitz：前两段我们聊的是 Hyland 如何理解内容和上下文，接下来让我们转到一个更具体的落地场景：保险。Erie Insurance 的 CIO Partha Srinivasa 也在现场。Partha，欢迎来到节目，能和你聊聊很高兴。 [00:47:52]

Partha Srinivasa：谢谢邀请，很高兴来到这里。先简单介绍一下我们公司。Erie Insurance 是一家已经有 100 年历史的公司，我们在这个行业里已经做了很久。我们是一家 Fortune 500 公司，是美国第 10 大房屋保险公司、第 11 大车险公司、第 12 大商业保险公司。不过有意思的是，我们只在 12 个州和华盛顿特区做生意。所以你看，我们其实是一家区域性公司，却要和全国性玩家竞争。我们是美国最大的区域性保险公司，这一点我们非常自豪。我们的业务还有一个特点：我们并不怎么做广告，电视广告更少，主要靠口碑和服务。我们的客户愿意替我们说话，这就是我们最宝贵的资产。

Alex Kantrowitz：那我们就直接切到 AI。你们现在在保险里怎么用 AI？你们的 rollout 进行到哪一步了？

Partha Srinivasa：在保险公司里，80% 到 90% 的信息其实都是非结构化数据。它们存在于保单文件、你提供的证据、理赔员的文档、各种备注、还有你和客户之间的对话里。过去我们做什么？我们把这些东西都存进 document repository（文档仓库）或者 information repository（信息仓库），留着以后需要的时候再查。现在，GenAI 的作用就是把这些非结构化数据重新“激活”，让它和结构化数据叠加，去超强放大我们已经在用的那些规则和属性。我们并不是要取代 structured data。结构化数据依然很重要，比如年龄、邮编、地址等等，监管和行业规则都还在那里。但 unstructured data 能给这些结构化信息加上上下文，帮助我们做更好的风险判断。

Partha Srinivasa：举个 underwriting（承保）的例子。我们在做承保时，通常要看几百个属性，甚至几千个属性，因为我们会把数据分段、做 segmentation，然后去找最适合的风险类型。每个人都有很多结构化属性，但如果再叠加非结构化信息，那就像给整个判断模型加了一层增强器。我们今天这么多业务，靠的也有 14 万名左右的人工代理人。谢谢你提到这一点。人还是很重要的。

Alex Kantrowitz：那把场景往理赔端再拉近一点。假设我开车出了事故，我在跟保险理赔员或者 claims agent 说“我出了这个问题”。他们本来会录入一些数字和字段。非结构化数据在这里会怎么帮上忙？

Partha Srinivasa：它会提供更多上下文，而且这种上下文会在你跟我说话的过程中实时冒出来，提示理赔员该补什么信息。比如理赔员在录入时，系统会提醒他：日期是什么、发生了什么、涉及几辆车、有没有人受伤。它不是要刁难客户，而是要帮助把信息问全。客户一开始往往只记得一部分，事故发生时大家都只能想起那么多；过一会儿他们会想起更多。理赔员也会不断追问。我们的系统要做的，就是把这些信息及时整理出来，帮助判断责任、赔付金额，以及后续应该怎么处理。

Partha Srinivasa：再往下讲一个很实际的例子。如果客户说“我的车不能开了”，系统要立刻想到是不是应该马上给他安排 rental car（租车）。如果客户说车里有孩子，系统还要知道可能得更换 car seat（儿童安全座椅）。这些例子看起来很细，但它们直接影响客户体验。很多客户自己也会忘掉这些细节，比如他们不会一开始就提到车里有安全座椅。系统不能等到 claim 关掉以后，六个月后客户再回来补充，说“哦对了，当时还有一个安全座椅”。那就太晚了。我们要在理赔当下就抓住这些信息。

Alex Kantrowitz：所以这其实不是在“惩罚客户”，而是在让客户服务更完整、更主动。

Partha Srinivasa：对，完全不是要惩罚客户。我们的意图是提供更好的客户互动。比如客户说自己出了事故、车不能用了，我们就能尽快帮他安排租车；如果他需要修眼镜、或者车里有孩子，就要及时处理车座问题。很多时候客户不会自己想到要补充这些细节，AI 和工作流要做的是提醒、补全、跟进，而不是让客户反复跑流程。

Partha Srinivasa：还有一个非常重要的场景是 time limit demand（时限索赔/限期和解要求）。理赔过程中如果有律师介入，原告律师可能会发出一份文件，要求在某个时间之前以某个金额和解，比如两周内以 5000 美元和解。我们每天处理的是数百万笔理赔，进来的往往是邮件或者文档。人不能靠自己去记住所有时间限制，所以系统必须及时提示：这个案子有期限，这个节点该行动了。这样我们才能在期限内回应，避免错过关键窗口。

Partha Srinivasa：从更宏观的角度看，理赔里最重要的是 timeliness（及时性）。如果需要证据、证人陈述、相关文件，你必须在事件发生后的那个时点就把它们收齐。因为理赔处理往往要持续三到六个月，你如果过了六个月再回头找证人、补证据，很多东西就已经来不及了。非结构化数据的价值就在这里：它能帮助我们在正确的时间点拿到正确的信息，让 subrogation（代位追偿）流程更干净、更完整。

Alex Kantrowitz：所以在理赔、承保这些流程里，系统其实是在帮人“记住该问什么、该追什么、该什么时候追”。

Partha Srinivasa：没错。它让我们不至于只靠记忆和人工清单。尤其是当你面对大量案件时，AI 可以在对话进行时提醒你该补什么，也可以帮你把信息写入正确的位置、发出正确的提醒、给客户发对的邮件或者 correspondence（正式通知）。客户往往并不知道自己的 claim 现在进展到哪一步，所以我们也希望系统能及时把状态更新给客户，而不是让客户自己猜。

Partha Srinivasa：我还想补一条，我们公司现在也在建立 AI center of excellence（AI 卓越中心）和 AI business office（AI 业务办公室），这和以前云计算时代的 cloud business office 很像。我们会盯着每一个 token，因为我真的相信，大家现在对 token 很兴奋，但不能浪费 token。先看有没有 business case（业务场景）能成立；如果没有，就不要浪费 token，因为 token 是要花钱的，而且未来我预计 token 的成本会比 compute（算力）还贵得多。所以我们得让这件事慢下来，确保每个应用都值得做。

Partha Srinivasa：同时，保险行业永远还是一个 trust business（信任生意）。我们永远都会有 human in the loop（人在回路中），因为信任是建立在人类判断上的，最后总要有人来验证。我们想做的，是保持和客户的持续互动：客户是不是满意？车是不是修好了？款项是不是按时支付了？这就是所谓的 agentic insurer with a human touch（带有人性温度的 agentic 保险公司）。AI 能帮我们持续监控这些 signals（信号），但最后还是要以人的判断为准。

结语：人类在环、信任与持续监控

Alex Kantrowitz：Partha，太感谢了。能听到你的故事很棒。谢谢你今天来。 [01:12:15]

Partha Srinivasa：谢谢邀请，真的很感谢。

Alex Kantrowitz：我们今天在 CommunityLIVE 现场，和 Jitesh、Michael、Partha 聊了很多。整个对话让我印象很深：把非结构化数据真正当成 AI 平台之上的 intelligence layer（智能层），确实能显著提升效率和效果。Hyland 谢谢你们的招待，我们下次再见。

非结构化数据是成功部署 AI 的关键吗？

整体概括

主要内容

关键 takeaway

目录

为什么 AI 试点总是难以落地

Hyland：把内容变成企业上下文

Michael Campbell：企业上下文引擎与 agent 生命周期

Partha Srinivasa：保险理赔里的非结构化数据

结语：人类在环、信任与持续监控