微软亚洲研究院常务副院长郭百宁:微软认知服务——让Apps拥有智慧

作者   智慧城市    发表于2017-07-02 12:10:00

      机器学习和人工智能领域的飞速发展使得机器可以识别声音、文字、图像等信息——甚至面部表情。在Build 2016微软开发者大会上,微软发布了最新的智能服务:微软认知服务(Microsoft Cognitive Services)。该服务集微软所有机器学习和人工智能之大成,通过易于使用的 API 将它们提供给开发人员,开发者可以开发出更智能、更有吸引力的产品。在首届世界智能大会——京津冀论坛智慧城市与社会论坛上,微软亚洲研究院常务副院长郭百宁博士向介绍了微软认知服务的研究成果以及应用案例。
 
      什么是微软认知服务

      微软认知服务包括视觉、语音、语言、知识和搜索五大类。微软希望让每一名开发者都能够构建商业机器人应用,并在应用中运用上人工智能技术。通过微软认知服务,你可以在你开发的应用中运用语音识别、语言识别、计算机视觉等多种类的人工智能技术,让它具备丰富的机器学习能力。借助微软认知服务,开发者们就算没有人工智能的知识背景也能轻松开发出属于自己的智能应用。

      视觉:计算机视觉情感识别人脸识别视频检测等。

      微软152层深层神经网络技术使微软认知服务中的视觉类API不仅大大提升了图像识别的种类,更是完善了图像描述、人脸检测、人脸验证、相似人脸匹配等多项功能。

      人脸识别,检测图片中一个或者多个人脸,并为人脸标记出边框,同时还可获得基于机器学习技术做出的面部特征预测。检测出人脸后,你可以直接将人脸方框输入到情绪识别 API 中来加速图像处理。可支持的人脸功能有:年龄、性别、头部姿态、微笑检测、胡须检测等面部重要特征点位置。

      计算机视觉从图像中提取丰富的信息进行视觉数据的分类和处理,并且保护你的用户免受有害内容的干扰。光学字符识别(OCR)可检测图片中的文字信息,并将提取出来的文字信息转化成为机器可读的字符串。通过分析图像来检测嵌入式文本,生成字符串并提供搜索功能。

      语音:自定义智能语音识别服务声纹识别语音识别等。微软研究院在语音识别在技术上取得重大突破,机器识别分辨率精确度(5.8%)第一次超过了人类(5.9%)。

      语言:必应拼写检查语言理解语言分析文本分析网络及语言模型等。现在的计算机视觉的话,是可以做的很准的,语音的理解,也可以做的很准,但是自然语言的理解现在还差的有点远,精确度有60%、70%。

      知识类:学术知识实体链接智能服务知识探索服务推荐等。拥有人类的各项感官功能是人工智能的一种表现,但深层的知识和更高层次的综合认知是让人工智能真正智能的核心。知识类API就属于更高层次的综合认知能力,而其中的实体链接智能服务则是知识类API中的重要一环。

      搜索类:必应自动推荐必应图片搜索必应新闻搜索必应视频搜索必应网页搜索开发者们可以轻松将必应搜索中的多种搜索知识和功能应用在自己的智能应用上。比如How-old.net(微软颜龄)、TwinsOrNet.net (我们有多像)、微软表情等等,这些微软人工智能黑科技的实验性应用背后就是微软的智能服务——微软认知服务。