2018微软人工智能大会：让AI更人性华北电力大学高等教育研究所

　　5月21日，2018微软人工智能大会的讲台上，微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋迎来了一位特殊的来宾——来自南京工业大学的硕士研究生宋昊旻。

　　1993年出生的宋昊旻，在一岁时由于医生用药不慎造成神经性听力损失，被诊断为终生听力严重损伤。经过不懈的艰苦练习，宋昊旻如今已经可以像常人一样发出声音，但受限于听力损失，他的语音、语调会显得有些吃力和不自然。

　　当天，昊旻与沈向洋进行了现场对话。基于Microsoft Translator打造的微软语音服务，专门针对昊旻的声音特点定制了语音识别模型，能够以极高的准确度将他的语音实时转换成文字，还能同步翻译成英语或其它语言，从而真正实现了无障碍沟通。

　　现场演示之后，沈向洋还宣布，微软将充分发挥其在人工智能（AI）领域的优势技术和资源，与中国产、学、研各界展开全方位合作，为科研教育打造一流平台、为企业创新开发先进方案、为全民AI提供免费培训；与此同时，微软将认知服务扩展到智能边缘，推出ONNX项目及ML.NET开源跨平台人工智能开发框架，并为微软小冰赋予更多创意功能，以18项创新技术、工具、服务，全力助推中国开发者，把握数字化转型机遇。

　　让沟通没有障碍

　　宋昊旻使用的这项用来帮助听力受损人群无障碍沟通的技术源于微软与美国罗彻斯特理工学院的一项合作。利用微软的人工智能技术和认知服务中的Microsoft Translator服务，科研人员开发出了可定制的自动语音识别解决方案，让学生能够更加从容自如地与世界交流。

　　“如果能够充分调动技术进步的全部潜力，那么我们一定可以解决更多困扰人类社会的重大问题。”沈向洋介绍，微软推出的“人工智能无障碍计划”，将在未来五年的时间内，投入2500万美元，助力全球开发者充分利用微软提供的人工智能技术和平台施展才华、发挥创意，为世界各地超过10亿残障人士，打造一个便利、平等、没有障碍的世界。

　　如今，计算机在看、听、说、推理等方面的能力、效率和准确度持续提升，微软将这些成果打包成解决方案，推出了实时语音到文本转换、计算机视觉识别、文本预测输入等功能和服务。利用这些触手可及的技术，人们可以为视觉、听觉、感知、学习、行动能力有所不便的人群或者是心理疾病患者，打造出人工智能应用和产品，帮助他们无障碍地面对工作、生活和与人沟通。

　　微软“人工智能无障碍计划”的目标，就是通过助力全球各地的开发者，尽可能地放大人工智能的影响力。沈向洋介绍，这项计划在实施过程中将分为三种途径：首先，微软会为开发者、院校、非营利组织、发明者提供技术方面的种子资金支持，帮助他们以人工智能为突破点，创造出能帮助残障人士更好地工作、生活和与人沟通的解决方案；其次，微软对具有潜力的项目给予更大的技术投入，并让微软的人工智能专家参与其中，帮助其成果实现规模化发展；第三，微软还可以将人工智能与开放设计融入现有的平台和产品，与合作伙伴一起将人工智能创新打造为平台级服务，从而为更多人提供服务，让无障碍的福利实现最大化。

　　唱歌有气息才与人类神似

　　会上，微软小冰还给与会者带来了她创作的歌曲《我知我新》。如果你听得够仔细，会发现这次歌手小冰的唱法跟那些被调教出来的虚拟歌姬有了细微的差别——小冰更像人类了，有了气息的变化。

　　“小冰两年前唱第一首歌的时候，就像你去KTV，听到隔壁包厢传过来的声音，但我们欣喜若狂。”小冰的开发负责人、微软（亚洲）互联网工程研究院副院长李笛表示，“想让AI唱歌且不跑调，这在技术上早已不难实现，但让AI唱的歌听起来像人类唱的，形神兼备，这成了小冰团队的新课题。”

　　首先可以确定的是，AI没有情感，在音准上，它可以做到完美。那么，怎样才能让她实现艺术创作，像人类那样有感情地歌唱？

　　微软研发团队从诱发源上做了调整。这个方法的灵感，始于小冰在偶然的一天对一张脚扭伤的照片给出的回应：“哎呀，伤得严重吗？”这让李笛团队意识到，想让AI产生偏感性行为方式，需要的是足够丰富、偏感性的诱发源，而这些带有感性色彩的诱发源，此前一直被当作“杂质”过滤掉了。

　　同样的道理，当音乐人小柯在评价小冰的歌唱时说：“声音很好，但很单薄，因为这个声音没有气息”，开发者也立刻明白了问题出在哪里。人类在唱歌时气息的变化、韵律感，这些丰富的细节不应该被过滤，它们也是宝贵的诱发源。

　　李笛这样总结这套全新的AI调教方法：“神似，来自于我们对人类创作的一种重新的拟合。这更像是一种黑盒子，是从已知去推导未知。最终完成形神兼备的过程，我们认为应该是发端于形似，最终通过规则达到神似。”

　　AI的每一次进步，其实都源自人类对自身更深层次的理解认知。

　　从“人机交互”到“人机交流”

　　从微软人工智能大会所传递的信息看，更具有现实意义的，还在于如何推进中国人工智能的发展，以及生态体系的构建。据悉，微软将向合作伙伴和开发者开放“全双工语音技术（Full Duplex）”，将“人机交互”进化为能像人类一样自然地“人机交流”，开发者可以使用这项技术打造自己的对话应用。今年4月，微软正式在美国和中国同步宣布了Full Duplex感官，并已完成产品化落地。

　　如今的世界就像是一台计算机，所有的一切都将因大数据、云计算和人工智能而发生改变。在这波澜壮阔的变革之中，有一项非常重要的需求，那就是要让人工智能更像人类，创造出能够像人类一样通过对话进行自如互动的人工智能。

　　如Alexa或者Siri的智能助理，都聚焦于提高智商或者是完成任务，用来提供天气或者路况之类的基础信息。沈向洋表示，他们希望智能助理和对话机器人能够同时具备智商与情商——即情感智能。“在人类交流的时候，我们会加入大量的语音语调、一语双关和幽默风趣的表达方式，而这些对于电脑来说，恰恰是最难以理解的。”

　　微软小冰还推出了一项能帮助家庭更紧密地联系在一起的新功能。以家长和孩子输入的条件为基础，只要20秒小冰就能为孩子们创作出一个量身定制的有声故事。借助经过特别训练的深度学习模型，小冰可以对从背景音乐到故事主角的每一个要素进行个性化的设置。据悉，这些服务将于今年6月1日开始面向亚洲市场提供。

　　沈向洋透露，位于美国加州专注于对话式人工智能研发的Semantic Machines公司，也即将投入微软的怀抱。“他们开发了一种革命性的新方法，利用机器学习帮助用户以更加简单、自然的方式来操作电脑。”他表示，“我们必须进一步拓展语音和语言的全新疆界来发展人工智能。”（中国科学报记者贡晓丽）