以下十个模块对设计和构建人工智能系统至关重要。供应商可以提供具备基本功能的模块,但公司通常需要对这些模块进行修改以适应个性化的应用。最简单的人工智能应用案例通常由单一模块组成,但通常会逐渐演变到包含两个或更多模块。下图结构是基于每个模块主要涉及领域,包括数据、处理或行动。
机器视觉以视觉、X射线、激光或其它信号为基础,对现实世界的物体进行分类和跟踪。光学字符辨识是机器视觉的早期成功案例,但解密手写文本尚在研究中。
机器视觉的质量取决于大量参考图像上人为做出的标签。学习这些包含标签的数据是训练机器的最简单途径。在接下来的五年之内,以视频为基础的计算机视觉技术将能够对动态行为进行识别和预测,比如监测系统。
语音识别能够将听觉信号转化成文本。在相对安静的环境中,包括Siri与Alexa在内的应用能够识别普通词汇中的大多数词语。对于更特殊的词汇,像Nuance的Power-Scribe这种为放射科医师量身定制的程序就变得极为必要。而我们还需要几年时间才能制造出在许多人同时说话的嘈杂环境中仍能精确记录的虚拟助手。
自然语言处理是对文本的语法分析和语意解释。这一能力可用于识别垃圾邮件、虚假新闻甚至高兴、悲伤、挑衅等情绪。目前,自然语言处理可对文本进行基本总结,并在一些场合还可推断意图。例如,聊天机器人尝试以感知聊天对象的意图为基础对聊天对象进行分类。自然语言处理技术有可能在接下来几年内获得显著提升,但对复杂文本的完全理解仍是人工智能的重要课题。
信息处理通过搜索、知识提取、非结构化文本处理等各种方法为查询提供答案。这一模块与自然语言处理紧密相关,它包括对数以亿计的文件进行搜索,或通过构造基础知识图形来识别文本中的各类关系。(使用维基百科中关于安吉拉·默克尔的数据形成的图形可将默克尔标记为女性、德国总理,以及已会见过唐纳德·特朗普的人。)这一模块还可能涉及到语义推理,比如从句子“特朗普是美国的默克尔”中可推论特朗普是美国总统。尽管知识数据库快速发展,但以推理为基础的机器学习可能在接下来的几年内仍处于初级阶段。
从数据中学习本质上就是机器学习——在历史数据的基础上进行价值预测或信息分类的能力。尽管机器学习是机器视觉和自然语言处理等模块的基础,同时也是一个独立的模块。机器学习是一些系统的基础,包括Netflix电影推荐、基于异常监测技术的网络安全程序,以及通过历史数据预测客户流失的标准回归模型等。
如何移除数据中的人为偏见是机器学习面临的挑战之一。鉴定欺诈、预测犯罪或估算信用评分的系统需要对隐含如代理人、警务人员和银行官员等偏见的信息进行编码。数据清理是一项有挑战的工作。
最后,现阶段许多机器学习模型本质上是黑箱。数据科学家们需要在设计系统时考虑透明性的问题,特别是在有监管要求的环境中,即使这样会牺牲部分性能。目前这一领域正在进行深入的研究,未来五年内透明度有望提高。
规划和探索代理可帮助识别实现目标的最佳行动顺序。无人驾驶车辆很大程度上依赖这一模块来进行导航。当需要同时考虑更多的代理和行动时,识别最佳行动顺序变得更加困难。强化学习是一个快速发展的子域,它的学习方式强调的是接收偶然的线索或奖励,而不是明确的指导。强化学习与人类大脑通过反复试错进行学习相类似,它帮助Google DeepMind在围棋领域取得成功。
图像生成与机器视觉相反,它以模型为基础生成图像。尽管这项技术仍处于初级阶段,这一模块可在缺失背景的情况下完成图像,比如将图片改变成文森特·梵高风格。图像生成技术支持包括Snapchat的masks工具在内的虚拟增强(VR)和现实增强(AR)工具。目前,图像生成技术是大型科技公司正在积极并购的目标。
语音生成包含以数据为基础的文本生成,以及以文本为基础的语音合成。Alexa的技术正是通过文本生成语音。这一模块可以支持新闻机构自动编写基本的体育和收入报告,例如比赛总结及财经新闻。在接下来的五年里,语音生成技术的发展很可能通过加入节奏、重读和声调使语音听起来更加自然。在不久的将来,音乐生成也将变得更加个性化。
处理和控制是指现实世界对象间的互动。例如,机器人已经学会人类如何在工厂中工作,但当面对切面包或给老年人喂饭这类非常规或不固定的任务时则会遇到麻烦。由于全球很多公司开始投资这一领域,机器人将在挑拣仓库异常物品和灵活处理不固定的人类行为方面表现得更好。
操控和移动涉及机器人在既定真实物理环境中的移动方式。无人驾驶车辆和无人机在使用车轮和旋翼方面十分娴熟,但在用腿走路——特别是两条腿走路方面面临艰难挑战。可顺畅地爬楼梯或开门的机器人将不会在未来几年内出现。四足机器人对平衡性要求略低,但目前已有的四足机器人已经能够进入轮式车辆无法进入的环境。