标贝科技声音理解功能上线助力推进个性化语音交互时代

　　古有听声辨位，今有听声"识"人。说到声音，其本质是不同频率声音的集合，以波的形式振动（震动）传播。由于每个人的发声器官（口腔、鼻腔、声带）各不相同，因此每个人的声音也不一样。因而，你的声音代表了个人很多关键信息，例如，性别、年龄、音色等特征。

　　前几年，韩国大热的刑侦剧《Voice》里，女主是一个报警中心电话接听员，天生听力过人，不仅能听到很多常人听不到的细小微弱的声音，还能分辨出人讲话的声音、物体碰撞的声音、环境背景音等，靠着这个听声辨物的"超能力"，女主通过现场声音，准确的分辨人、物、地点，帮助组员破获了很多案件和解救人质。

　　如今，这种通过解读声音来识人辨物，已经完全能靠人工智能来实现了，即众所周知的声音识别。

　　在我们日常生活当中，声音识别已经应用得非常广泛了。比如说我们平时使用一些智能家居设备时，通过语音进行指令操控；在不方便进行手动输入的场景下，可以通过语音输入，进行网页搜索、导航设定、文本录入，动嘴不动手，方便快捷。

　　但仅仅是这样还不够。在实际的应用场景里，用户的说话环境往往包含各种各样的噪声，会在一定程度上污染说话人的声音信号，使算法无法准确获取说话人的声纹特征；甚至由于说话人过多，无法准确分离出目标人的声音，提取不到准确的声纹特征等因素，都会对识别效果有影响。

　　标贝科技立足于对AI的理解，依托先进的语音交互技术，以语言和语音为入口，持续研发全新的AI语音能力，打造更懂用户的语音服务和更接地气的语音产品，目前已经推出中英文语音识别、多语种语音合成、声音转换和声纹识别服务，均得到落地应用。与此同时，标贝科技持续深挖细分领域，全新上线声音理解功能，不仅能听懂用户说什么，还能鉴定用户身份。

　　标贝科技声音理解，即通过声音识别基本算法，自动对说话人的语音信号进行特征提取，构建声音分析框架，由机器进行语音数据分析，快速区分噪音与人声，并判定发音人性别和年龄段，进行更加精准化的信息匹配。

　　在应用场景上，声音理解功能尤为有意义。在人机交互系统中，可以通过说话人的性别和年龄确定说话人所属的特定人群，从而更有针对性的进行交互。

　　在智能家居领域，智能音箱、智能语音助手可以利用声音理解的"辨认"技术，得出其性别、年龄、历史偏好等信息，提供个性化服务，如针对老年人、儿童等年龄段用户，按照兴趣推荐不同的歌曲、新闻，对设备控制权限进行安全控制，让机器更智能。

　　在智能客服场景里，基于语义的自动电话销售已经成为行业常态，而通过声音理解功能对语音客服的音频数据进行分析，构造实时准确的用户画像，能做到对不同电销客户的精准推送，大大降低获客成本，提升用户活跃度，增强变现能力。

　　在刑事侦查中，警方可以根据用户的年龄和性别进行访问授权，快速确定说话人的性别和年龄，有助于缩小搜索范围，并为分析犯罪心理和行为分析提供依据。

　　总的来说，声音作为人们进行信息交流最方便、有效的方式，未来必然也是人机交互的不可或缺的载体。随着多种语音交互技术的不断成熟和融合，语音交互越来越多的转向个性化需求，结合语音识别、声纹识别等多元技术，声音理解能力将逐渐融入人们的日常生活，产生巨大的应用价值。标贝科技也将持续推动AI语音技术创新研发，助力企业与开发者实现更多个性化语音解决方案的落地。