AI 技术讲座精选：无 IA（信息架构）不 AI（人工智能）

mayongzhancsdn

2017-04-20

关注关注

学习人工智能（AI）到底会如何影响我们个人生活和工作的各个方面？

利用人工智能技术的不同应用到底有哪些？

决策因素和具有典型应用、限制、考量因素和数据源的AI工具？

理解资助、特许和管理对AI和认知计算倡议到底有多重要？

AI被赋予了人类知识。相关机构需要为AI制定怎样的策略和基础性数据结构使其能够管理知识？

本文将对以上问题一一做出解答。

编译 | AI100

来源 | IEEE Software

各种形态和规模的供应商——从资金充裕的初创企业到知名的软件品牌，都纷纷加入到宣传人工智能（AI）的行列。

金融机构正在建立AI导向的投资顾问团队。聊天机器人能提供很多服务，从顾客服务到销售协助。

尽管人工智能得到很多关注，但是很多人都不知道，这些技术都需要一定的知识工程、信息架构和高质量数据源。许多供应商都选择避开这个问题或者宣称他们算法的运行依赖的是无结构式信息源，算法“理解”信息源，解释用户查询，然后无需预设构架或人类干预即可显示结果。

这种方案可能在特定情境下行得通，但是大部分应用在神经网络、机器学习和自然语言处理器各显其能之前，需要人类进行大量的艰苦工作。

DigitalGenius 这个产品在2015年的一次会议上收到媒体报道，它使用的是深度学习和神经网络。

DigitalGenius 首先将输入问题归至某一个需要进一步处理的类别：产品信息、账户信息、动作请求（action request）、比较问题、建议问题等。这些分类属于信息架构的一个基础元素。起点是将问题置于上下文中理解，然后再将它传递到其他模型中，包括产品信息系统和其他数据库和应用程序接口（API）。

反过来，其中的每个系统和信息源都需要进行很好的架构，以返回正确信息。如果未通过某种方式使信息实现结构化并对其进行组织，系统就无任何结果可返回。人们预测 DigitalGenius 能够用人工智能吸引到顾客，依据的就是该产品拥有高质量、结构化的数据。

数字参与：情境中的正确信息

机构们处在改进数字工具吸引顾客的无尽循环中。

这些改进方法包括：通过提供更加相关的内容增强用户体验的个性化；调整搜索结果，使返回的正是用户感兴趣的内容；机构们还可以努力增加电子邮件通信的回复率；加大对用户社区和其他社交媒体平台的参与；通过其他各种在线机制总体增强产品体验。

在上述的每个方案中，吸引顾客的方式都是在正确的时间和在最明显且对用户最有价值的情境中向用户提供相关的数据和内容（形式包括促销、产品广告、推销、下一步最好政策、交叉销售和向上销售的产品、回答问题等）。

这可以通过解释用户与机构过去和现在互动中的各种信号来实现。

这些信号包括先前购买信息、实时点击流数据、支持中心互动、消费内容、用户偏好、购物特征、人口统计数据、企业统计数据、社交媒体信息和其他任何通过行销自动化和整合技术收集到的“电子身体语言”。例如，一个搜索查询向技术用户返回的结果可能与向非技术用户返回的结果不同。

搜索的核心定义就是建议引擎。信号是搜索语句，建议则是结果集。对用户的了解越多，定制建议的水平就越高。如果建议与某个产品相关，那么干净、结构清晰的产品数据就是一个前提条件。

个性化、用户信号和建议

确保建议准确无误并且用户体验真正实现个性化需要做到以下几点：正确组织产品数据并将其结构化；内容处理必须整合到产品推介中；必须在产品、内容和用户意图信号之间建立联系。

产品对内容的关系建立在这样的基础上：了解用户任务并知道哪种内容会帮助他或她完成这个任务。任务可能是评论、指南、产品规格、参考材料、使用说明、图表和图像或者其他帮助用户决定购买哪种产品的内容。

人工智能包含这样一种应用，它可使与计算机的交互更加容易并且使计算机能处理更多类型的问题，即使这些问题通常属于人类认知的范围。

每个人工智能程序都与信息进行互动，信息结构化的水平越高，该程序就越有效。

信息语料库包含程序试图处理和解释的答案。为了获得结果对信息进行结构化的操作成为知识工程，此类结构则称为知识表示。

知识本体作为知识表示

知识表示包括分类系统、受控词汇、同义词词库结构以及术语和概念间的所有关系。这些元素共同构成了知识本体。

知识本体代表一个知识域和信息架构结构以及在特定上下文中获取和返回答案的机制。知识本体还可以收集有关物体、过程、材料、动作、事件以及现实世界无数逻辑关系的“常识”知识。

这样，知识本体就为计算机推理构建了一个基础，即使语料库内并没有明确包含某一问题的答案。答案可以从语料库中的事实、术语和关系中推理出来。

在实践意义上，这能使系统对用户而言更加友好；在用户使用语句变形进行检索请求时检索能力更强；在遇到系统开发时未完整定义的用例时处理能力更强。实际上，系统能够“推理”并进行逻辑演绎。

正确解释用户信号使系统能够针对用户的情境提供正确的内容，实现这点不仅需要我们的顾客数据干净，经过正确的结构化并且整合多个系统和过程，还要求系统理解用户、他或她的特定任务、产品和所需内容（所有内容都经实时动态整合）之间的关系。

构建这些结果和关系并且协调各后端平台和前端系统的架构可使企业的知识本体能够提供个性化、多渠道的体验。有些人可能将此称为企业信息架构；但是除了数据结构，该知识本体还有更多含义。

别忘了，知识本体的定义包括现实世界的逻辑和关系。知识本体可以包含有关过程、顾客需求和内容关系的知识。

挖掘产品关系内容

顾客和工业产品需要与内容和用户情境联系起来，但是我们无法通过挖掘内容为某一用户情境推荐产品。

在工业应用中，用户可能需要零件和工具来完成对液压系统的维修。使用自适应图像识别软件采集有关液压系统和维修的参考手册，系统可以提取出一个所需工具和相关零件的列表。搜索液压维修，搜索引擎就会给出一个动态生成的产品页面，这个页面基于产品关系并且与该公司的产品信息有关联。

对于某些信息专业人士，这可能听上去实施起来非常复杂且麻烦；但是，还有一些新的方法可以使我们离这些期望的实现更近一些。

如果工作，那它就不是AI

随着科技的进步，AI构成元素的概念也获得了发展。我的一位同事曾说：“直到你知道它如何工作，它才是AI。”这确实是一个有趣的观点。我从麻省理工学院AI课程的材料中发现了支持这个观点的依据：

AI […]有个方面从根本上是关于应用的。某些应用你可能不会将其称为“智能”[…]。例如，编译器在过去曾被认为是AI，因为[…]语句[曾为]高级语言；计算机怎么能够理解？使机器理解的行为[…]曾被认为是AI。现在[…]我们理解了编译器，并且还有一个关于如何构建编译器的理论[…]，但是，编译器不再是AI了。[…]当他们最终使什么东西工作起来，AI领域的其他人就将这个东西共同选为AI。因此，在定义上，AI是不会工作的。如果工作，那它就不是AI。

处理能力和功能上的进步似乎解决了很难处理的问题。

不久以前，由于需要实时处理的数据量太过庞大，自动驾驶汽车曾被认为在技术上是不可行的。语音识别不可靠，并且需要进行大量的特定语者语音识别训练。手机曾为“汽车移动”电话，当时需要装满一个汽车后备箱的设备（我上世纪八十年代购买的第一台汽车电话除了花了我数千美元，还使原本宽敞的后备箱变得十分狭窄）。

今天大部分的AI都被认为是理所当然的技术。但是，我还在使用的文字处理器还曾被认为是一个先进的AI应用！

简单下面暗藏复杂

在表面之下，AI十分复杂；但是，这种复杂向用户隐藏，实际上它实现了简单、直观地体验。

它并不是魔法，而是需要可以在不同流程、部门和应用中重复使用的基础性结构。起初一般在孤立和独立工具中开发这些结构；但是，当在实现了机器智能的设备的整体框架中开发时，才能实现这些结构的真正力量AI将会改变整个商业格局，但是需要在产品和内容架构、顾客数据、分析以及协调用户参与生态系统中的工具上进行投资。采取这些方法的机构将会在竞争中取得巨大优势。

干净的数据是入场费

通过AI方法处理信息过载被认为是战胜企业在提高顾客参与度方面的挑战的应对方案。但是在能够利用这些方法之前，机构们须处理需要作为机器学习算法输入的数据，该算法反过来可以处理非结构化和结构化数据源中的这些不同信号。干净、结构清晰并且受管理的数据是前提。

在许多情况下，由AI处理的数据或者分析的语料库通常在结构化上差于组织得更好的数据源（例如金融和交易数据）。学习算法可以用于从含义模糊的查询中提取意义和尝试了解非结构化数据输入的含义。

人类可能使用不同的术语对问题进行措辞或者他们可能询问过度宽泛的问题。他们并非总是清楚自己的目的——他们不一定知道自己要寻找什么。这就是为什么人类销售员在于顾客进行关于整体需求的交谈中尽力理解他们的潜在需求，而不是询问他们具体需要什么（至少优秀的销售员是这样做的）。

当用户知道他们想要的东西并且能够清楚说明，将AI加入到处理过程会更有效，在这种情况下得出的答案较为直接。算法在处理问题询问方式的变形、解释问题的意义以及处理其他有助于将用户意图进一步放在情境中理解的非结构化信号时会表现出最佳性能。

组成AI系统的AI和算法有很多种。但是即使当用AI系统从彻底非结构化的信息中寻找结构时，它们仍然需要在数据层配置结构。

考虑到由AI系统搜索的数据为非结构化数据，为什么我们需要信息架构呢？

非结构化信息的形式通常为网页、文件、评论、调查、社交媒体或者其他来源的文本。尽管它是非结构化信息，但是仍包含一些与来源和上下文有关联的参数。社交媒体信息需要使用多种参数描述用户、用户发表的内容、关系、发表的时间和位置、链接、标签等。在这种情况下，信息架构问题构成输入数据结构的特征，这样就可以对系统进行编程，寻找感兴趣的模式。

即使是在无监督学习（从未经人类预定义的数据中得出信号的一类应用）中，程序员仍然需要用属性和数值首先描述数据。识别出的异常值和模式可能没有预定义的类别，但是输入需要有结构。

对构成机器学习输入的大数据源的考虑中有这样一个常见谬论：因为数据无预定模式(无预定义结构)，因此不需要结构。仍然需要对数据进行属性定义、标准化和净化来应用机器学习和模式识别算法。随着企业开始进军机器学习和AI领域，他们应用的任何AI系统都将处理、分析、利用或需要这些知识，因此他们首先应该开发出代表所有这些知识的本体。

某些供应商可能对这种方法的价值有所质疑，并坚称他们的算法能够处理任何数据——但是我认为，这只有在工具中自包含本体时这才能行得通。

即使这样，为广泛应用而开发的工具所包含的功能和企业的特殊需求之间总会出现差距。即使工具是为特定行业而开发的，各机构在流程上的差异仍要求工具具有特殊的词汇和情境知识关系。这是一项巨大的工作；但是不进行这项工作会使企业在发展过程中缺失至关重要的一步。

大部分被描述为AI的途径都是对解决信息管理问题的熟知方法的延伸，所有这些途径都需要干净的基础性数据和信息架构作为起点。标准信息管理和实用性AI之间的差异在于理解技术的限制并知道将它们应用到何处可以应对企业面临的挑战。

这篇文章的剩余部分将阐述您的组织如何可以识别将从AI中收益的用例；识别能提供可靠且富有意义的理解的数据源，来训练和指导AI；确定将能够持续改进AI和认知计算系统的管理、综合处理和可扩展流程。

识别用例

将AI用例从标准信息管理用例中区分出来需要考虑构成处理数据的数据源，用户所面临任务的类型以及将成为解决方案组成成分的系统。

解决这些问题的各方法的不同之处在于如何综合处理和吸收数据源；需要如何得出并应用组织原则；期望功能的复杂性；以及当前制定的解决方案的局限性。

AI方法需要执行层更大的投资和资助、项目级别的管理和泛企业级别的影响。它还需要比典型信息管理项目更长期的投入。

尽管企业有机会在有限范围内应用AI，但是将其作为一种变革型技术进行应用在某些情况下应按照企业资源规划（EPR）项目的规模归为总体数字转型战略的一部分，并且提供相对应的支持、资助和投入。某些EPR项目可能花费5千万至1亿美元）。

尽管不会有机构用那种级别的投入开发一系列未经实际检验的技术，但是企业需要划拨资金发展应用新兴AI技术的经实际检验方法。

AI转型路线图包括对回报和投资回报率（ROI）进行持续评估，以及在追求长期目标的同时专注于创造短期成果。

大多数机构正试图利用有限的方法、部门级解决方案、独立工具和并不充足的资金解决表1中罗列的问题。大多数企业都面临着这些类别的问题，尽管使用有限的资源和孤立的方法可以实现一定进步，但是像往常一样这会成为一种业务拓展。真正的变革型应用将企业对其知识前景进行展望，并实施新的管理、评估和数据质量项目——管理项目进行决策，评估项目监督这些决策的有效性，数据质量项目促进AI技术的开发。

表1显示了AI技术的示例应用。

AI 技术讲座精选：无 IA（信息架构）不 AI（人工智能）

识别数据源

我们可以从典型知识库中获得训练数据，数据综合处理的程度越高，质量就越好。挖掘呼叫中心记录和聊天日志可以得出内容和数据关系以及问题答案。流式传感器数据可以历史维修数据产生关联，挖掘搜索日志可以获得用例和用户问题。

我们可以通过处理顾客账户数据和购买来寻找购买者之间的相似点并预测对产品信息的反应；使用产品信息的文本内容对电子邮件回复指标进行处理以显示购买者细分。从产品目录和数据表可以获得属性和属性值。

我们可以使用公共参考获取程序、工具列表和产品关联。可以将YouTube视频内容的音轨转为文本，并在文本中发掘产品关联。

我们可以将用户行为与产品信息和动态内容联系起来。对情绪分析、用户自生成内容、社交图谱数据和其他外部数据源进行挖掘和再结合可以得出知识和用户意图信号。正确的数据源依赖应用、用例和目的。

表2描述了拥有代表性应用、限制、考量因素和数据资源的AI工具的示例。尽管该列表并不全面，并且承认有一类工具频繁应用于其他工具和应用中（例如，智能代理可以使用推理引擎，而推理引擎反过来可以利用学习算法），但是该表详细描述了探索对比各方法的考虑事项。

AI 技术讲座精选：无 IA（信息架构）不 AI（人工智能）

确定管理、综合处理和可扩展流程

AI和认知计算的管理方法与其他信息技术管理项目的管理方法相同。它们需要执行资助、特许、角色和责任、决策协议、逐级上报流程、明确的议程和与特定商业目标和流程建立联系。

这些倡议是数字转型项目的子集，与客户生命周期和内部价值链相挂钩。因为目标总是会影响处理结果，所有AI和认知计算项目都依据线性指标多所层次的细节进行调整——从内容和数据质量到流程的有效性到业务要求的满足——并且最终与组织竞争性和市场战略相挂钩。明确项目里程碑和阶段，以对各项目阶段拨发资金，每个阶段都匹配有明确定义的成功标准和可衡量成果。

AI必定会继续影响我们个人生活和工作的方方面面。大部分影响的发生都不易察觉——例如应用可用性和信息可寻性的提高。这些影响在表面上不一定是AI的作用。

随着时间的推移，AI驱动的智能虚拟助理表达会更流利，能力会更强，并且将会成为与技术进行互动的首选机制。人类创造知识，而机器处理、储存并按照知识行动。AI是应用形容的人类知识。机构需要通过采集并综合处理知识以及搭建形成知识架构的基础性数据结构，为AI的发展构建基础。没有这些成分，算法就没有运行的基础。

这篇文章最早刊登在《IEEE Software》杂志上。《IEEE Software》杂志对刊登内容进行同行评审，为读者提供有关当今策略技术研究的可靠信息。为了使运营的企业值得信赖且适时而变，IT经理和技术主管面临多重挑战，为此他们依赖 IT专家提供最先进的解决方案。

本文作者 Seth Earley 是 EarleyInformation Science的CEO。他是知识流程、企业数据架构和顾客管理策略方面的专家。他的兴趣包括客户体验分析、知识管理、结构化和非结构化数据系统和策略以及机器学习。

➤版权申明：该文章版权归AI100所有，如需转载、摘编、复制等，请后台留言征得同意。若有直接抄袭，AI100将追究其责任。

AI 技术讲座精选：无 IA（信息架构）不 AI（人工智能）

关于AI100

AI100致力于打造人工智能技术和产业社区。为人工智能开发者提供信息和技术交流的平台；为人工智能创业者提供行业数据及智能应用的商业场景；为行业提供人工智能化的技术商业应用。请快快关注AI100公众号吧！

人工智能信息架构架构 ia

安科网

AI 技术讲座精选：无 IA（信息架构）不 AI（人工智能）

mayongzhancsdn

数字参与：情境中的正确信息

个性化、用户信号和建议

知识本体作为知识表示

挖掘产品关系内容

如果工作，那它就不是AI

简单下面暗藏复杂

干净的数据是入场费

识别用例

识别数据源

确定管理、综合处理和可扩展流程

mayongzhancsdn

相关推荐

当教练、做监工…… 人机协同下的AI更懂你

如何通过7个步骤构建机器学习模型

Facebook借助人工智能对内容审核排序

人脸识别技术发展现状及未来发展趋势

零基础也能看懂的人工智能教程

关于机器学习管道需要了解什么?

关于人工智能的解读，看这一篇就够了

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

人工智能与制造业融合有多难？我国人工智能人才缺口达30万

华人研究团队推出AI“讽刺”检测模型，准确率达86%

程序员用AI算法生成了3000个新的宝可梦

决策智能：方兴未艾的人工智能新方向

如何认识人工智能对未来经济社会的影响

AI＋智慧交通实现整体升级和协同

5G技术与人工智能的智能结合

人工智能助力教育均衡发展

为什么所有的机器学习模型有90％从没有投入生产

2020年人工智能改变了我们生活的哪些方面？

激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官

全面解读谷歌云人工智能如何为机器学习提供帮助

mayongzhancsdn