期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
融合领域多词特征的英文武器装备名识别研究 预览
1
作者 雷树杰 邢富坤 王闻慧 《计算机应用与软件》 北大核心 2019年第6期177-183,195共8页
武器装备名是军事领域中一类重要的命名实体,英文武器装备名的自动识别对于军事领域的信息处理有着重要的价值。作为一种融合了上下文特征的统计模型,条件随机场(conditional random field,CRF)在对命名实体的识别中有着广泛的应用。针... 武器装备名是军事领域中一类重要的命名实体,英文武器装备名的自动识别对于军事领域的信息处理有着重要的价值。作为一种融合了上下文特征的统计模型,条件随机场(conditional random field,CRF)在对命名实体的识别中有着广泛的应用。针对武器装备名的构造特点及CRF模型在使用语言特征上存在的不足,对已有CRF模型提出两点改进:丰富模型使用的特征,对武器装备名的构造模式与要素进行分析总结,形成针对武器装备名的要素类,并将该类别信息作为特征提供给CRF模型使用;针对构成武器装备名的要素大多是多词单位,将标注单元由词扩展到多词组合。实验结果显示,改进后模型对武器装备名识别的准确率和召回率均有明显提升,准确率由85.62%提升为90.60%,召回率由42.27%提升为88.17%。该方法不仅对于军事领域相关的信息处理任务有着重要价值,并且对于其他语种和相关领域的研究都有着重要的借鉴意义。 展开更多
关键词 英文武器装备名 CRF 构造规律 单元 自动识别
在线阅读 下载PDF
基于关联度的汉藏多词单元等价对抽取方法 预览
2
作者 诺明花 刘汇丹 +1 位作者 吴健 丁治明 《中文信息学报》 CSCD 北大核心 2012年第3期 98-103,共6页
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CM... 针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。 展开更多
关键词 藏文信息处理 单元 关联度
在线阅读 下载PDF
EBMT系统中的多词单元翻译词典获取研究 预览 被引量:5
3
作者 程洁 杜利民 《中文信息学报》 CSCD 北大核心 2004年第1期 55-61,共7页
EBMT系统是一种基于语料库的机器翻译方法,其主要思想是通过类比原理进行翻译.如何从语料库中提取出一个实用的翻译词典进行系统的辅助翻译已经越来越多的引起关注.本文探讨了如何结合阈值和关联度提取的方法获取多词单元翻译词典,在这... EBMT系统是一种基于语料库的机器翻译方法,其主要思想是通过类比原理进行翻译.如何从语料库中提取出一个实用的翻译词典进行系统的辅助翻译已经越来越多的引起关注.本文探讨了如何结合阈值和关联度提取的方法获取多词单元翻译词典,在这两种方法中,阈值提取受主观影响太大,关联值提取效率太低,都不能很好的满足翻译词典提取的要求.本文提出的算法利用阈值提取出备选多词单元,其中提出了四点规则弱化主观影响且保证全面覆盖所有多词单元,降低了阈值本身所带来的不精确度的影响,然后对计算结果进行三层过滤,进一步提高了准确率;该算法还合并了单词译成多词单元和多词单元互译两部分词典的提取,提高了工作效率. 展开更多
关键词 人工智能 机器翻译 EBMT 翻译 单元
在线阅读 下载PDF
基于双语语料的单个源语词汇和目标语多词单元的对齐 预览 被引量:6
4
作者 陈博兴 杜利民 《中文信息学报》 CSCD 北大核心 2003年第1期 13-19,共7页
多词单元包括固定搭配、多词习语和多词术语等.本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法,算法一方面通过计算对应于同一个源语词汇,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目... 多词单元包括固定搭配、多词习语和多词术语等.本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法,算法一方面通过计算对应于同一个源语词汇,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题.另外,对短语翻译词典的分级,有效地减少了高级别词典中非正确翻译项的数目,使得翻译词典具有更好的实用性. 展开更多
关键词 双语语料 源语 目标语 人工智能 机器翻译 双语对齐 单元 翻译
在线阅读 下载PDF
基于Web的查询翻译中OOV译文挖掘优化
5
作者 姚健 俞晓明 +3 位作者 刘悦 程学旗 程工 刘春阳 《山西大学学报:自然科学版》 CAS CSCD 北大核心 2015年第1期1-7,共7页
基于Web的未登录词(Out-of-Vocabulary,OOV)译文挖掘过程主要包含双语摘要获取、候选多词单元提取、最佳译文提取等步骤。通过改进候选多词单元提取方法和最佳译文选择方法以获取更高的译文挖掘准确率。在候选多词单元提取方面,在层... 基于Web的未登录词(Out-of-Vocabulary,OOV)译文挖掘过程主要包含双语摘要获取、候选多词单元提取、最佳译文提取等步骤。通过改进候选多词单元提取方法和最佳译文选择方法以获取更高的译文挖掘准确率。在候选多词单元提取方面,在层次迭代的对数似然比(LLR)基础上提出了基于内部信息层次化过滤的对数似然比方法,相比LLR方法降低了噪音比且准确率提高了5%。在最佳译文选择方面,提出了基于左右熵(LRE)邻接信息过滤候选多词集合,同时将频度-距离模型(F-D)和基于LLR的词对关联度模型相结合使译文挖掘的召回率同比提高了5%~10%。 展开更多
关键词 跨语言信息检索 未登录 查询翻译 单元提取
基于网络的跨语言信息检索中OOV译文挖掘研究 被引量:2
6
作者 葛运东 梁颖红 +2 位作者 孙常龙 房璐 姚建民 《微电子学与计算机》 CSCD 北大核心 2009年第10期185-188,共4页
查询翻译是影响跨语言信息检索(CLIR)性能的关键因素之一.查询中未登录词(OOV)译文的挖掘对改进CLIR性能具有重要意义.利用主题词译文查询扩展方法从搜索引擎自动获取有效双语摘要资源;采用频度变化信息和邻接信息从双语摘要资源中... 查询翻译是影响跨语言信息检索(CLIR)性能的关键因素之一.查询中未登录词(OOV)译文的挖掘对改进CLIR性能具有重要意义.利用主题词译文查询扩展方法从搜索引擎自动获取有效双语摘要资源;采用频度变化信息和邻接信息从双语摘要资源中抽取多词候选单元,并与常见的基于统计的多词单元抽取方法进行了比较.实验中译文挖掘方法取得了TOP 1包含率62.02%,TOP 10包含率95.35%的效果. 展开更多
关键词 跨语言信息检索 OOV 查询翻译 单元抽取 译文挖掘
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈