• OA系统
  • 图书馆
  • English
  • 中国科学院
  • 首页
  • 所况简介
    所况简介
    1964年,为落实国家声学规划,满足国家迫切需要,形成全国声学学科研究中心,经国务院副总理聂荣臻元帅批准,成立中国科学院声学研究所(以下简称声学所),将原中科院电子所的水声、超声、建筑声3个实验室,1958年成立的南海研究站、1960年成立的东海研究站、1961年成立的北海研究站整体纳入声学所。声学所是从事声学和信息处理技术研究的综...
    了解更多+
    现任领导
    李风华
    所长
    倪 宏
    党委书记、副所长
    李明庚
    副所长(正局级)
    李浩然
    党委副书记、纪委书记
    杨 军
    副所长
  • 机构设置
    领导机构
    所务会 党委会
    咨询机构
    学术委员会 学位评定委员会
    职能部门
    综合办公室 党委办公室 人力资源部 科技发展部 重大任务部 财务管理部 资产条件保障部 质量管理部 保密办公室 监督审计(纪委)办公室
    研究站
    南海研究站 东海研究站 北海研究站
    挂靠机构
    中国声学学会 全国声学标准化委员会 中科院声学计量站(CMA)
    研究单元
    声场声信息实验室
    水下环境信息感知实验室
    水下信息技术实验室
    海洋声学技术实验室
    水下航行器实验室
    超声学实验室
    噪声与音频声学实验室
    智能网络与信息处理技术实验室
    语音与智能信息处理实验室
  • 科研成果
    研究领域
    经过五十多年的发展,声学所形成了独具特色的六大研究领域:水声物理与水声探测技术、环境声学与噪声控制技术、超声学与声学微机电技术、通信声学和语言语音信息处理技术、声学与数字系统集成技术、高性能网络与网络新媒体技术。 【详情】
    成果概况
    获奖
    论文
    专利
    专著
    科研进展
    研究人员开发出高灵敏度的声表面波氨气传感器
    2023-03-29
    研究人员提出一种结合虚拟传感的鲁棒有源降噪方法
    2023-03-28
    研究人员利用驻波场中悬浮小球的振动实现物性参数的反演
    2023-02-07
    研究人员利用蜂窝结构的空间周期性提出一种脱粘缺陷检测新方法
    2023-01-16
    研究人员用一种鲁棒的并行虚拟传感方法实现反馈有源噪声控制
    2022-11-08
    研究人员计算出边界附近粘弹柱壳的声辐射力矩
    2022-09-14
    产品展示
  • 人才队伍
    院士专家
    汪德昭
    马大猷
    应崇福
    张仁和
    侯朝焕
    李启虎
    汪承灏
    人才招聘
    更多+
    中科院声学所监督审计(纪委)办公室管理岗位招聘启事
    2023-03-22
    中科院声学所资产条件保障部安全保卫管理岗招聘启事
    2023-03-16
    中科院声学所综合办公室主任岗位招聘启事
    2023-03-13
    中科院声学所声场声信息实验室科技类岗位招聘启事
    2023-02-14
    中科院声学所南海研究站声学实验室主任岗位招聘启事
    2023-02-14
    正高级专业技术岗位
    副高级专业技术岗位
    中科院青年创新促进会会员
    特别研究助理及博士后管理
  • 研究生教育
  • 党建与文化
    活动报道
    更多+
    机关第一党支部召开党员大会
    2023-03-28
    噪声与音频声学党总支召开组织生活会
    2023-03-28
    百岁寿辰 学习楷模——东海研究站贺离休老干部杨馥丽百岁寿诞
    2023-03-22
    声学所妇委会开展“艺润科创情,煦暖巾帼心”郊游踏青活动
    2023-03-21
    声学所召开党建工作推进会
    2023-03-17
    南海研究站召开2022年度党建述职考评会
    2023-03-10
    文化副刊
    诗歌
    书画
    摄影
    散文
  • 交流合作
    学术交流
    更多+
    声学所举办科研基金撰写专题培训
    2023-02-28
    声学所举行2023年第1期学术交流会
    2023-02-10
    声场声信息国家重点实验室学术委员会暨声学与海洋信息重点实验室学术委员会2022年度工作会议在北京召开
    2022-12-26
    声学所举行第十一届研究生学术交流会
    2022-11-18
    中科院声学研究所举行2022年第6期学术交流会暨2022年度青促会学术交流会
    2022-09-30
    科技合作
    更多+
    亚秒级超快响应的声表面波氢探测技术参加智汇行动-概念验证创新大赛路演
    2023-01-18
    东海研究站参加第五届长三角科技成果交易博览会
    2022-11-18
    王文研究员获第十二届中国发明协会发明创业奖·人物奖
    2022-09-01
    合肥市新站高新区管委会调研声学所超声学实验室
    2022-08-25
    国际合作与港澳台地区合作项目情况
    2022-07-06
    国际会议
    更多+
  • 科学传播
    工作动态
    更多+
    青岛海信学校学生走进北海研究站开展科学实践活动
    2023-02-10
    声学所参加“嗨,科学!”中科院第四届科学节主场活动
    2022-10-31
    “爱科学,向未来”——声学所举办第十八届公众科学日线上活动
    2022-06-20
    声学所举办“红领巾寻访红色印记”科普活动
    2022-04-18
    关爱听力健康,聆听精彩未来——声学所与中关村一小联合开展2022年“全国爱耳日”科普活动
    2022-03-04
    科技期刊
    科普文章
    更多+
    科普文章丨耳机里的声音为什么会有方向感?
    科普文章丨嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?
    科普文章丨神奇的主动降噪技术
    科普视频
    更多+
    科普视频丨杨波:揭秘“深海勇士号”载人潜水器
    科普视频丨声音的奥秘
    科普视频丨真空无法传声科普实验
    科普视频丨借声波一臂之力探神秘海底世界
  • 信息公开
    信息公开规定
    信息公开指南
    信息公开目录
    信息公开申请
    信息公开年度报告
    信息公开联系方式
  • 首页
  • 所况简介
    • 机构简介
    • 所长致辞
    • 现任领导
    • 历任主要领导
      • 历任所长
      • 历任党委书记
    • 院所风貌
  • 机构设置
    • 党的委员会
    • 学术委员会
    • 学位委员会
    • 组织机构
      • 领导机构
      • 咨询机构
      • 研究平台
        • 研究单元
        • 重点实验室(工程中心)
      • 职能部门
      • 研究站
      • 挂靠机构
  • 科研成果
    • 研究领域
    • 科研进展
    • 科研产出
      • 获奖
      • 论文
      • 专著
      • 专利
  • 人才队伍
    • 院士专家
    • 正高级专业技术岗位
    • 副高级专业技术岗位
    • 中科院青年创新促进会会员
      • 2011
      • 2012
      • 2013
      • 2014
      • 2015
      • 2016
      • 2017
      • 2018
      • 2019
      • 2020
      • 2021
    • 特别研究助理及博士后管理
      • 博士后公告
      • 博士后规章
    • 人才招聘
  • 交流合作
    • 学术交流
    • 国际会议
    • 科技合作
      • 合作动态
      • 专利转让信息
      • 合作项目
  • 研究生教育
  • 党建与文化
    • 党群园地
    • 组织文化
    • 形象标识
    • 活动报道
    • 文化副刊
      • 诗歌
      • 书画
      • 摄影
      • 散文
  • 科学传播
    • 时间轴
    • 工作动态
    • 科普作品
      • 科普文章
      • 科普视频
      • 其他
    • 科技期刊
  • 信息公开
    • 信息公开规定
    • 信息公开指南
    • 信息公开目录
    • 信息公开申请
    • 信息公开年度报告
    • 信息公开联系方式
  • 重要新闻
  • 党建动态
  • 综合新闻
  • 媒体报道
  • 学术报告
  • 通知公告
  • 最美科学家
  • 专题
  • 专题
    • 学习两会精神
    • 学习宣传贯彻党的二十大精神
    • 中国科学院2022年度工作会
    • 2021年终科技盘点
    • 中国科学院“基础研究十条”
    • 十九届六中全会
    • 党史学习教育
    • 不忘初心牢记使命
    • 十九届五中全会
    • 率先行动
    • 两学一做
    • 防灾减灾
    • 十八届四中全会
    • 喜迎十八大
  • 快捷通道
    • OA系统
    • 继续教育网
    • ARP
    • 违法违纪举报
    • 信访渠道
    • 图书馆
    • 正版软件
    • 网站地图
  • 友情链接
    • 新闻媒体
    • 政府机构和组织
    • 国内院校
    • 国内科研机构
    • 国际科研机构
  • 网站纠错
科普作品
科普文章
科普视频
其他
其他
您当前的位置:
首页 科学传播 科普作品 其他

“芝麻开门”

发布时间:2009-07-22
【  小 中 大  】

“芝麻开门”

“天方夜谭”里有个阿里巴巴和四十大盗的故事,四十大盗藏宝的石窟的门听见芝麻开门的口令,就会打开。这反映了人们的愿望,能不能使机器听懂人的话,用人的语言控制机器。

为什么机器不容易听懂人的话

每个人的发音都不相同,语种、方言、性别的差异使发音的差别很大,即便是同一语种、同一方言、同一性别的人,讲同一句话,发音还是不完全一样的。同一个人在不同的情绪下,比如生气、高兴、疲倦等等,讲的同一句话,发的音也会有变化,更不用说伤风感冒,影响发音器官,声音就会有更多的变化。一个机器经过训练,能听懂一个人的话,别人的话就听不懂或听的很差,叫做特定发音人的识别系统。不论什么人(同一语种、同一方言)讲话都能听懂,叫非特定发音人的识别系统,这种系统就难做多了。

“芝麻开门”只有四个音,有一个音不一样就不开门。如果要求机器分别几十个词汇,只要事先保存好词汇的发音,再一一对比,这也不复杂。如果词汇量扩展到几千、几万、十万以上,就复杂多了。不光是机器判断的时间问题,词汇量一大就有同音词问题,而汉语普通话中同音词是很多的。

如果识别的是单个词,机器听到后和存在机器里的各个词的音比较,看和哪个最接近就行了。但如果要求识别的是一句话,就是连续语音,机器听到的是一串语音,有时音节和音节连在一起,如何区分哪几个音节是哪个词呢?在自然语言理解中这叫歧义切分,就是把句子切成词,不同的切法就有不同的意思。白纸黑字还有这么多问题,机器识别中听到的是一串音,问题就更多了。

向机器读一段新闻或报告,这里每一句话都结构严谨,合乎文法规则,机器听起来就比较方便。但如果听普通人随便讲话,就不是这样。一句话往往不是一口气说下来,而是几个字一断,中间还要加上嗯、啊、这个等一些没有意义的音。整个句子往往结构颠倒,有时一个词要重复几次,有时还会漏掉个把音节,或者把一些音“吃”掉。机器怎么办呢?

语音识别

语音识别过程简单说就是事先人对机器讲话,机器把一个词或一个音节或一个音位进行分析成为各类参数,把这参数记下来,成为图样。识别的时候,人对机器讲话,机器再把这些词、音节或音位与存下来的各种图样相比较,来判断讲的话是什么。

孤立词(或音节)识别比较好办,一个词与一个词,或汉字中一个音节与一个音节,在读的时候中间要有间断时间,因此词与词、音节与音节之间的边界是清楚的。而在连续语音识别中,你不知道这一句话有多少个词(或音节),更不知道一个词和相邻词,或一个音节和相邻音节的边界在什么地方。

如果计算机识别是针对特定人的,那就要由这个人对机器进行训练,得出和他相应的模型。别的人来讲,机器就会判定错误。即使他本人讲的话,过一段时间也会变化,得了伤风感冒声音更会变化。因此隔一段时间也要训练一次。非特定人的识别系统要经过许多人的训练,把这些人的特征都提取出来存在机器里,识别时与这个组合的模型匹配。人一多,语音不同,一个音与另一个音就容易交叉、模糊,因此识别起来正确率就要比特定人识别系统有所降低。但非特定人识别系统不需要训练,对使用人很方便。

语音识别要求的是知道讲什么字、什么词,有的还要知道是什么意思,这就是理解系统的工作。目前有许多种办法,包括用语法、语义、字与字、词与词配合的概率,这件事要求大量统计。但不同文体、不同性质的资料,词的组合不一样。所以这种方法也有很大局限性。由词构成串之后,还要用语法、语意再加检查,看是否合理。

如果是随便讲话,就可能讲出半句话,或者把一些字省掉或“吃掉”,有的字重复,有的中间塞进没有用的嗯、啊等没有用的音,这时的识别就更加困难。在一些识别系统中使用“词点选”的方法,就是选出关键词,其他词和音都不予理会。不过使用这种方法时任务要单纯。

语音合成

语音合成系统可以按要求说各种话,用的时候大部分场合是输入文字,由合成器发出语音,目前的语音合成都是用电子线路和计算机完成的。对合成器发出的语音的要求是每一个音都发得对,整个句子连接起来的抑扬顿挫,各个音轻重长短都要符合人讲话的规则,听起来又清晰、又自然,好象真人在讲话,不是机器腔,这才是好系统。

语音合成分为两个步骤,第一步是文字分析,第二步是语音合成和发音。汉语是一个个汉字连续排列,只有标点符号能够把前后文分开。哪几个字是一个词是不容易区分的,词划分不对,读起来也不会正确。分词之后要确定哪一个词的发音应该重,哪个音应该轻。汉字每个字都有声调,但在连续起来之后,有的字的调就要改变。再下一步就是要弄清整个句子哪些地方要加重,哪些地方要轻读,哪些词时间要长,哪些词要短,哪两个词间隔时间要长一些,哪两个词间隔时间要短一些,这些总起来叫韵律。下一个步骤就是按上面的结果和规则,在合成器中合成和发音。

通用语音翻译

通用语音翻译说起来并不复杂,只要有需要相互翻译的两种语言的识别系统、机器翻译系统和语音合成系统就可以组成语音翻译系统了。其实不然。首先,平常说话讲的是口语,说话人又有各种方言或口音,周围还会有各种噪声,语音识别系统在识别时就会遇到困难。通常使用的机器翻译系统对这种不规范的文字也会产生困难,会译错或译不出来。

要想使语音翻译有比较好的效果,首先是要限制谈话涉及的领域和词汇,其次在方言上要加以限制。随着口语翻译的发展和计算机词汇量的增加,谈话内容和语种都可以不断扩大,相信实现通用语音翻译系统已经不是很遥远的事情了。

语音编码

把语音波形变成数字码,然后用数字传输,这有很多好处,比如信号稳定、音质可靠,易于构成多路、综合、网络化及多媒体通信,易于实现高度保密,设备易于做到标准化和高的性能价格比。数字传输方法的缺点是要使用比较宽的频带,这也可以采用先进的编码技术,压缩编码率来解决。

语音信息处理

中国科学院声学研究所在语音信息处理技术领域具有多年的技术积累和研发经验,“嵌入式语音识别系统”在“863”计划组织的多次系统性能评测中均名列前茅。目前,针对语音识别的“复杂环境”和“真实口语”组织开展了电话语音识别、电视语音识别、特种语音识别、高自然度语音合成、与低码率高质量的语音编码工作。

特种语音识别

  • 关键词识别:主要根据所检测的内容中频繁出现的、有规律和有特征的词或词组的识别来判定用户目前所说内容的敏感性。
  • 说话人识别:主要根据语音信号反映说话人生理、心理和行为特征的语音参数,建立模型来自动识别说话人身份的技术。
  • 语种识别:根据语音信号提取语言相关的特征参数,判别这段语音属于何种语言。
  • 变声技术:将一种正常或不易理解的声音变换成另一种正常的或易于理解的声音。
  • 音乐检索:通过声音哼唱来查询乐曲,一般可采用基于内容的音乐检索方法。

概念层次网络

中国科学院声学研究所黄曾旸研究员创立的概念层次网络理论,将人们对于语言的理解方法及概念符号化,使计算机能够象人一样进行语言理解和推论,从而真正“理解”人的语言。随着技术的发展与完善,这种方法会对计算机语音识别有一个重大突破。

 


附件下载:

上一篇:

高得听不见的声音——超声

下一篇:

超声应用

旧版回顾 | 网站地图 | 联系我们
© 1996 - 2021 中国科学院声学研究所 版权所有备案序号:京ICP备16057196号-1
京公网安备110402500001号地址:北京市海淀区北四环西路21号中国科学院声学研究所
邮编:100190
官方微信