OA系统图书馆网站地图所长信箱English中国科学院
 
首页机构概况科研成果研究队伍国际交流科技合作研究生教育文化建设党群园地科学传播信息公开
  综合新闻  
  图片新闻  
  科研动态  
  学术活动  
  媒体报道  
您现在的位置:首页 > 老网站 > 新闻动态 > 媒体报道
全新“网络不良信息检测系统”成功研发
2009/01/21 | 作者:转载自科学时报 | 【 【打印】【关闭】
 通过语义而非关键词区分网页内容
 
   传统的网络检测系统一般只能基于关键词对网络信息进行机械的识别和过滤,如想屏蔽一些邪教网站,往往那些批判邪教信息的网页也会一并被过滤掉。近日,中国科学院声学研究所成功研发出了一套能通过语义理解信息,进而区分出不良信息和批判不良信息的网页内容的全新的“网络不良信息检测系统”。
 
   “我们不是通过关键词匹配的方式进行处理,而是根据语句的意义来判断哪些网页信息需要过滤。”中科院声学研究所研究员、语言知识处理项目负责人张全向《科学时报》介绍,该系统能模拟人浏览网页的方式对网页进行审查,对于不能作出判断的内容系统还能提出警告,供人工判别。
 
   张全说,摒弃互联网上的不良信息已成为整个社会的共识,在社会范围内已形成对不良信息的“围剿”,不良信息正有如“过街老鼠,人人喊打”。正是面向这一迫切的社会需求,中国科学院声学研究所HNC研究团队集多年从事自然语言理解处理的核心技术,才成功研发出了这套具有语义理解特点的网络不良信息检测系统。
 
   据悉,早在20世纪80年代末,中科院声学所就开始探索模拟人脑语言智能的自然语言理解处理模式,创立了概念层次网络理论(HNC),并发展形成了HNC自然语言理解处理技术。HNC的最大特点是能够进入语义深层处理自然语言的语义内容,而不是仅仅利用语言的表层信息进行处理。因此,尽管涉及同样的关键词,但HNC技术能够区分不良信息和对不良信息进行批判的网页内容。经过多年的科研攻关,HNC团队已取得多项成果,形成了自主知识产权的自然语言理解处理技术,为形成满足信息时代要求的各种特定的信息处理技术奠定了坚实基础。
 
   “网络不良信息检测系统的研发就是将这些自然语言理解处理技术与先进的网络技术结合而形成的。”张全介绍,与传统的检测系统相比,该系统能大幅提高对网页内容判断的准确率,大大降低误判率,从而减少了监管人员的工作强度。
 
   目前,这一系统主要针对网络上出现的色情、反动、低俗等不良信息,根据指定的网站自动进行内容下载、检测并给出检测报告。在面向国家公共信息安全的信息过滤、针对企业应用的信息采集等方面,该系统都大有可为。目前,项目组对该系统进行的语料测试已有3万篇以上,测试成功率达85%以上。
 
   张全告诉记者,通过更换知识库,该系统还可广泛应用在热点信息跟踪、舆情分析等领域。(记者:张巧玲)
 
  相关新闻
Copyright 1996 - 中国科学院声学所 版权所有 备案序号:京ICP备16057196号 京公网安备110402500001号
地址:北京市海淀区北四环西路21号中国科学院声学研究所  邮编:100190