期刊文献+
共找到127篇文章
< 1 2 7 >
每页显示 20 50 100
文本相似度计算研究进展综述 预览
1
作者 王寒茹 张仰森 《北京信息科技大学学报:自然科学版》 2019年第1期68-74,共7页
相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模... 相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模实际应用的相似度计算方法体系迫在眉睫。从方法论的角度,对目前主流的相似度计算方法进行总结,介绍了不同粒度的文本相似度计算的差别以及近几年的研究进展,总结了目前相似度计算方向存在的问题,并对发展趋势进行了展望。 展开更多
关键词 距离公式 相似度计算方法 词语相似度 句子相似度 篇章相似度
在线阅读 下载PDF
基于词语相似度的语义选择限制知识获取 预览
2
作者 贾玉祥 赵倩倩 +2 位作者 李育光 郑一 昝红英 《郑州大学学报:理学版》 CAS 北大核心 2019年第3期67-72,共6页
考察基于词语相似度的语义选择限制知识获取方法.首先获取种子论元,再利用词语相似度进行论元扩展.比较了基于词向量的词语相似度计算方法与基于词典的词语相似度计算方法在选择限制知识获取任务中的表现.实验表明,前者效果更好,且二者... 考察基于词语相似度的语义选择限制知识获取方法.首先获取种子论元,再利用词语相似度进行论元扩展.比较了基于词向量的词语相似度计算方法与基于词典的词语相似度计算方法在选择限制知识获取任务中的表现.实验表明,前者效果更好,且二者有一定互补性,可以结合使用.与语义选择限制知识获取的其他方法相比,基于词语相似度的方法,种子选取灵活,不要求对语料进行深层句法语义分析,在伪消歧实验中也取得了较高的正确率,具有一定的优势. 展开更多
关键词 语义选择限制 词语相似度 词向量 伪消歧 词汇语义
在线阅读 免费下载
基于改进TF-IDF的百度百科词语相似度计算 预览
3
作者 杨欣 郭建彬 《甘肃科学学报》 2019年第2期143-147,共5页
基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法。TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中... 基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法。TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中词语分布的类别信息,包括词语在类内、类间分布对词语权重的影响改进词语权重计算,此外,根据词语在全集中出现的频率定义词语的代表性,通过计算百科词条中词语的权重因子,构建词条的相关向量,根据向量之间余弦值计算词语相似度。实验表明,相对于不使用TF-IDF方法计算权重和基于经典TF-IDF方法计算权重,结合类别信息的TF-IDF方法和定义代表性的TF-IDF方法提高了词语相似度计算的准确性。 展开更多
关键词 TF-IDF 百度百科 词语相似度 词语代表性
在线阅读 下载PDF
基于结构化表达的电力运维文本分析 预览
4
作者 祝春捷 潘坚跃 +1 位作者 王译田 陈超 《电子设计工程》 2019年第17期53-58,共6页
基于电力大数据体系信息的爆炸式增长,挖掘其深度价值,本文在结构化表达和特征提取与分析等方面提出文本分析新方法。针对电力运维领域文本特征设计基于拼音统计的中文词向量生成模型;采用卷积神经网络和条件随机场组合模型对中文词分类... 基于电力大数据体系信息的爆炸式增长,挖掘其深度价值,本文在结构化表达和特征提取与分析等方面提出文本分析新方法。针对电力运维领域文本特征设计基于拼音统计的中文词向量生成模型;采用卷积神经网络和条件随机场组合模型对中文词分类;通过结构化语义槽填充,以词频和词向量特征在事故多因素类内和类间进行统计分析和事件关联。模型语义理解准确率达到51.93%,中文实体词识别F1分数达到72.52,均取得了解析能力更强、精度更高的结果。最后对电力运维日志语料进行实例测试,验证了本方法的性能优势。 展开更多
关键词 文本挖掘 中文词向量 命名实体识别 结构化处理 语义相似度
在线阅读 下载PDF
基于维基百科链接特征的词语语义相似度计算 预览
5
作者 张波 《软件工程》 2019年第10期36-43,共8页
针对目前基于维基百科的相似度计算方法预处理过程烦琐、计算量大的问题,本文以维基百科为本体引入基于特征的词语语义计算,提出了一种基于维基百科的快速词语相似度计算方法。根据维基百科页面链接结构的特点,该方法把页面的入链接和... 针对目前基于维基百科的相似度计算方法预处理过程烦琐、计算量大的问题,本文以维基百科为本体引入基于特征的词语语义计算,提出了一种基于维基百科的快速词语相似度计算方法。根据维基百科页面链接结构的特点,该方法把页面的入链接和出链接作为页面特征值构建特征向量模型,通过计算页面的特征向量相关系数计算对应词语的语义相似度。本文还改进了维基百科消歧处理算法,在一词多义的处理中减少社会认知度低的义项页面的干扰,进一步提高了计算准确度。经Miller&Charles(MC30)和Rubenstein&Goodenough(RG65)测试集的测试,测试结果表明了基于维基百科链接特征的方法在计算相似度方面的可行性,也验证了本文的计算策略和消歧改进算法的合理性。 展开更多
关键词 语义相似度 维基百科 基于链接 基于特征值
在线阅读 下载PDF
一种基于语料的词汇语义相似度认知算法 预览
6
作者 吴华 罗顺 孙伟晋 《计算机与数字工程》 2019年第2期300-303,共4页
词汇的语义相似度计算是信息检索、自然语言处理、推荐系统等技术的基础。事实上,词汇可能因其语境或语料的不同,语义的相似度千差万别。论文通过提取词汇的上下文语境特征,构建了一种基于特定语料的词汇的语义相似度计算模型。实验结... 词汇的语义相似度计算是信息检索、自然语言处理、推荐系统等技术的基础。事实上,词汇可能因其语境或语料的不同,语义的相似度千差万别。论文通过提取词汇的上下文语境特征,构建了一种基于特定语料的词汇的语义相似度计算模型。实验结果表明,该算法有较好的准确率和较强的领域敏感性,取得了令人满意的结果。 展开更多
关键词 文本分析 自然语言处理 领域预料 语义相似度
在线阅读 下载PDF
基于潜语义模型的电网信息作业实施方案风险评估方法 预览
7
作者 张希翔 梁彪 《电工技术》 2019年第9期37-39,42共4页
电网企业级信息系统每次进行增量升级、消缺等作业时会严格按照实施方案进行,实施方案步骤不严谨、对风险的疏忽会带来巨大的安全隐患。针对现阶段人为对实施方案进行评估存在的管控力度不够、风险细节易疏漏等问题,提出基于潜语义模型... 电网企业级信息系统每次进行增量升级、消缺等作业时会严格按照实施方案进行,实施方案步骤不严谨、对风险的疏忽会带来巨大的安全隐患。针对现阶段人为对实施方案进行评估存在的管控力度不够、风险细节易疏漏等问题,提出基于潜语义模型的变更作业实施方案风险分析方法。试验证明了本文方法可有效发现电网信息作业实施过程中潜在的风险,可在电网实际信息作业中推广应用。 展开更多
关键词 风险评估 文本分析 潜语义模型 词语相似度
在线阅读 免费下载
基于语句相似度的主观试题自动阅卷模型研究 被引量:1
8
作者 陈贤武 刘道波 《武汉大学学报:工学版》 CSCD 北大核心 2018年第7期654-658,共5页
为了实现网络考试的自动化,提出了基于语句相似度的主观试题自动阅卷模型.首先,从关键词、语义、句法3类文本特征相似度方面分析了主观试题自动评阅的可能性,并对答案数据进行清洗、特征分类,给出了自动阅卷的步骤;其次,建立多特征语句... 为了实现网络考试的自动化,提出了基于语句相似度的主观试题自动阅卷模型.首先,从关键词、语义、句法3类文本特征相似度方面分析了主观试题自动评阅的可能性,并对答案数据进行清洗、特征分类,给出了自动阅卷的步骤;其次,建立多特征语句相似度计算模型,以语义为核心,基于多特征综合相似度对主观试题进行分析比对,理论上提高了主观试题的评审准确度;最后,为某副省级城市人才培训网设计了一个针对主观试题的自动阅卷系统原型.实验表明,提出的改进语句多特征相似度计算方法,能有效提高智能阅卷系统中主观试题自动阅卷的准确性,具有较好的应用前景. 展开更多
关键词 自动阅卷 中文分词 词语相似度 语句相似度
基于文本相似度计算的兴趣网络构建方法研究 预览
9
作者 王远志 张海坤 +1 位作者 高标 陆文成 《安庆师范大学学报:自然科学版》 2018年第3期72-76,共5页
从海量无结构互联网信息中提取高质量的社会网络有着广阔的应用前景和较高的学术价值,本文以新浪微博网站作为信息源提取用户之间的共同兴趣网络,在知网文本相似度计算方法的基础上,结合用户特征词的词性分析,提出了一种结合词性的用户... 从海量无结构互联网信息中提取高质量的社会网络有着广阔的应用前景和较高的学术价值,本文以新浪微博网站作为信息源提取用户之间的共同兴趣网络,在知网文本相似度计算方法的基础上,结合用户特征词的词性分析,提出了一种结合词性的用户相似度计算方法,此方法可以计算用户之间的兴趣强度,进而构建共同兴趣网络。实验结果表明,该方法对用户类别判定的准确率有所提高,对兴趣网络的提取有较好的效果。 展开更多
关键词 关系提取 共同兴趣网络 知网 词语相似度 文本相似度
在线阅读 免费下载
基于多重继承与信息内容的知网词语相似度计算 预览 被引量:2
10
作者 张波 陈宏朝 +1 位作者 朱新华 吴田俊 《计算机应用研究》 CSCD 北大核心 2018年第10期2975-2979,共5页
针对目前中文词语语义相似度方法中基于信息内容的算法研究不足的问题,对知网信息模型上使用基于信息内容的中文词语相似度算法进行了研究。根据知网采用语义表达式表示知识而缺乏完整概念结构的特点,通过抽取知网语义表达式中的抽象概... 针对目前中文词语语义相似度方法中基于信息内容的算法研究不足的问题,对知网信息模型上使用基于信息内容的中文词语相似度算法进行了研究。根据知网采用语义表达式表示知识而缺乏完整概念结构的特点,通过抽取知网语义表达式中的抽象概念,结合原知网义原树构建具有多重继承特征的知网义项网作为基于信息内容的计算本体;根据该义项网,对基于信息内容的词语相似度算法进行了改进,提出了新的信息内容含量计算方法。经过Miller&Charles(MC30)基准平台的测试,验证了基于信息内容方法在计算中文语义相似度方面的可行性,也证明了该计算策略和改进算法的合理性。 展开更多
关键词 词语相似度 知网 多重继承 信息内容 描述逻辑
在线阅读 下载PDF
向量模型和多源词汇分类体系相结合的词语相似性计算 预览 被引量:1
11
作者 梁泳诗 黄沛杰 +2 位作者 岑洪杰 唐杰聪 王俊东 《中文信息学报》 CSCD 北大核心 2018年第4期31-39,共9页
现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度... 现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计算方法,采用多源词汇分类体系的近义词关系以及向量模型得到的词向量,计算得到词语的向量表达,并探索了不同类型词汇分类体系提供的知识的选用和融合问题,弥补了单一词向量和单一词汇分类体系在词语相似性计算中的缺点。该文采用了NLPCC-ICCPOL 2016词语相似度评测比赛中的PKU 500数据集进行评测。在该数据集上,该文的方法取得了0.637的斯皮尔曼等级相关系数,比NLPCC-ICCPOL 2016词语相似度评测比赛第一名的方法的结果提高了23%。 展开更多
关键词 词语相似性 向量模型 词汇分类体系 组合方法 多源融合
在线阅读 下载PDF
基于路径与词林编码的词语相似度计算方法 预览 被引量:1
12
作者 王松松 高伟勋 徐逸凡 《计算机工程》 CSCD 北大核心 2018年第10期160-167,共8页
现有词语相似度计算方法主要针对词语的路径结构进行计算,较少深入考虑词语的语义信息,导致计算结果不够准确。针对该问题,提出一种改进的词语语义相似度计算方法。将词语的词林编码与路径结构相结合,同时利用局部敏感哈希算法和海明距... 现有词语相似度计算方法主要针对词语的路径结构进行计算,较少深入考虑词语的语义信息,导致计算结果不够准确。针对该问题,提出一种改进的词语语义相似度计算方法。将词语的词林编码与路径结构相结合,同时利用局部敏感哈希算法和海明距离计算词林编码之间的相似度。在MC和RG数据集上的实验结果表明,该方法可使皮尔逊相关系数分别达到0.897 4和0.866 8,较传统基于路径和深度的计算方法准确性更高。 展开更多
关键词 同义词 路径结构 编码 词语相似度 局部敏感哈希算法 语义
在线阅读 下载PDF
基于概念基元的词语相似度计算研究 预览
13
作者 池哲洁 张全 《电子与信息学报》 EI CSCD 北大核心 2017年第1期150-158,共9页
词语相似度的计算在机器翻译、信息检索等多个领域有重要作用。该文以概念层次网络理论的概念基元符号系统为语义资源,在共性与差异性对比思想下,提出一个涵盖层次性、网络性、对比对偶特性、挂靠特性及五元组信息的多维度词语相似度... 词语相似度的计算在机器翻译、信息检索等多个领域有重要作用。该文以概念层次网络理论的概念基元符号系统为语义资源,在共性与差异性对比思想下,提出一个涵盖层次性、网络性、对比对偶特性、挂靠特性及五元组信息的多维度词语相似度计算方法;在节点深度和节点距离度量上,引入权重以增加不同层次间的区分程度。在人工打分的测试集上进行实验,结果表明该方法计算的相似度与人工判断的符合程度较好,兼容度、相关系数和序对符合度分别达到0.812,0.786和0.775;同时,相关性检验的结果也显示该方法的计算值与人工打分显著相关。 展开更多
关键词 词语相似度 语义距离 概念层次网络 概念基元
在线阅读 免费下载
基于抽象概念的知网词语相似度计算 预览 被引量:3
14
作者 朱新华 郭小华 +1 位作者 邓涵 马润聪 《计算机工程与设计》 北大核心 2017年第3期664-670,713共8页
针对基于知网的词语相似度算法进行研究,提出一种基于抽象概念的词语相似度的快速计算方法。将《知网》义项语义表达式中带有关系约束的第一独立义原定义成抽象概念,将义项语义表达式转换成一个多层次的抽象概念组;根据义项定义中的抽... 针对基于知网的词语相似度算法进行研究,提出一种基于抽象概念的词语相似度的快速计算方法。将《知网》义项语义表达式中带有关系约束的第一独立义原定义成抽象概念,将义项语义表达式转换成一个多层次的抽象概念组;根据义项定义中的抽象概念将义项挂到《知网》现有的义原树中,形成一棵包含义原、抽象概念与义项等概念的义项树;利用义项树中的深度与路径,在现有优秀算法基础上,通过适当的义项定义的预处理与参数调节,直接计算义项间的语义相似度,避免复杂的意义相似性计算。实验结果表明,该方法对于MC30词对的相似度计算值与人工判定值相比,取得了0.84的Pearson相关系数,达到了目前优秀词语相似度算法的水平。 展开更多
关键词 词语相似度 知网 义项树 抽象概念 最短路径 深度
在线阅读 下载PDF
基于扩充词汇链改进的关键词提取算法 预览 被引量:1
15
作者 王小林 朱磊 邰伟鹏 《苏州科技大学学报:自然科学版》 CAS 2017年第2期49-54,共6页
关键词的准确提取在文本分类、文本聚类、信息检索等方面起着重要作用.现有的基于词汇链的关键词提取方法在计算词语相似度时,赋予第-类独立义原系数的值最大并且通过第-类独立义原相似度约束其他三类义原相似度;通过区域特征和词频提... 关键词的准确提取在文本分类、文本聚类、信息检索等方面起着重要作用.现有的基于词汇链的关键词提取方法在计算词语相似度时,赋予第-类独立义原系数的值最大并且通过第-类独立义原相似度约束其他三类义原相似度;通过区域特征和词频提取关键词时,词语的权重依赖词汇链的长度,不能充分利用区域特征等问题.为了提高关键词的提取准确率,计算词语相似度时,用对比的两个词语每类义原个数的和与四类义原个数总和的比值大小排序后动态的获取系数取代固定系数,并且去除每类义原受到前面所有义原类的约束;提取关键词时,用词汇链的有效权重替代词汇链的长度.实验结果表明:改进后的算法较传统的算法提高了准确率. 展开更多
关键词 关键词提取 区域特征 词语相似度 有效权重 词汇链 义原
在线阅读 下载PDF
一种基于《知网》的词语相似度计算方法 预览
16
作者 史俊冰 《太原学院学报:自然科学版》 2017年第1期69-72,共4页
随着信息检索技术的发展,自然语言处理成为研究热点。词语的相似度技术在信息检索、机器翻译等方面都有着重要的作用。文章以《知网》作为知识库,通过考虑义原地位的不同,采用不同的计算方法,综合得出词语相似度,经过实验验证,此算法与... 随着信息检索技术的发展,自然语言处理成为研究热点。词语的相似度技术在信息检索、机器翻译等方面都有着重要的作用。文章以《知网》作为知识库,通过考虑义原地位的不同,采用不同的计算方法,综合得出词语相似度,经过实验验证,此算法与传统算法相比,合理性更胜一筹。 展开更多
关键词 知网 词语相似度 自然语言处理
在线阅读 免费下载
基于维基百科的汉越词语相似度计算 预览 被引量:1
17
作者 杨启悦 余正涛 +2 位作者 洪旭东 高盛祥 汤智文 《南京理工大学学报:自然科学版》 CAS CSCD 北大核心 2016年第4期461-466,共6页
为了解决跨语言汉越词语相似度计算问题,以维基百科多语言概念页面作为桥梁,利用概念之间存在的翻译对应关系、词语出现在不同概念页面及与其他概念之间存在共现关系,提出了基于维基百科的汉越词语相似度计算方法,该方法首先提取维基百... 为了解决跨语言汉越词语相似度计算问题,以维基百科多语言概念页面作为桥梁,利用概念之间存在的翻译对应关系、词语出现在不同概念页面及与其他概念之间存在共现关系,提出了基于维基百科的汉越词语相似度计算方法,该方法首先提取维基百科中汉语越南语具有对应关系的概念集合,构建双语概念特征空间,然后根据词语在相应概念描述文本中出现的词频特征,以及词语与概念在其他概念文本中的共现特征构建词语的概念向量值,最后通过夹角余弦对两个向量进行词语相似度计算。实验结果表明提出的方法在汉越双语词语相似度计算上表现了好的效果,概念共现关系能够提高词语相似度的准确率。 展开更多
关键词 汉语 越南语 词语相似度 维基百科 概念 共现关系 对应关系 词频
在线阅读 下载PDF
舆情本体概念抽取研究 预览 被引量:1
18
作者 张学芳 刘胜全 刘艳 《新疆大学学报:自然科学版》 CAS 北大核心 2016年第3期333-337,共5页
面对舆情信息的动态性、跨领域性、面向主题等特点,目前已有的领域本体学习方法难以适应舆情本体知识的自动构建.本文采用信息爬取技术收集热点舆情文本信息,根据构建模型自动识别主题进行归类,并对识别后的主题文本提取名词性词汇或者... 面对舆情信息的动态性、跨领域性、面向主题等特点,目前已有的领域本体学习方法难以适应舆情本体知识的自动构建.本文采用信息爬取技术收集热点舆情文本信息,根据构建模型自动识别主题进行归类,并对识别后的主题文本提取名词性词汇或者短语作为候选概念集;采用语义相似度方法计算候选概念间的相关度,根据相关度计算各概念的权值,并进行排序;结合词频变化的方法抽取与主题相关的核心概念.实验结果表明,本文方法可有效地抽取与舆情主题相关的核心概念,对舆情本体的构建以及后期的知识共享和重用起到积极作用. 展开更多
关键词 舆情本体 概念抽取 词语相似度 词频统计
在线阅读 免费下载
基于语义角色标注的汉语句子相似度算法 预览 被引量:4
19
作者 田堃 柯永红 穗志方 《中文信息学报》 CSCD 北大核心 2016年第6期126-132,共7页
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好... 在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。 展开更多
关键词 语义角色标注 词语相似度 知网 词向量 标注句型匹配
在线阅读 下载PDF
几种基于统计的词聚类方法比较 预览 被引量:1
20
作者 袁里驰 《中南大学学报:自然科学版》 EI CAS CSCD 北大核心 2016年第9期3079-3084,共6页
基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的互信息定义一种词语相似度,在词语相似度的基础上定义词语集合的相似度,进而提出一种能得到全局最优结果... 基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的互信息定义一种词语相似度,在词语相似度的基础上定义词语集合的相似度,进而提出一种能得到全局最优结果、自下而上的词聚类算法。研究结果表明:该词聚类算法执行效率高,聚类效果较好;根据该词聚类模型的结果所构造的基于词类和基于词语的线性插值模型,能较好地缓解统计语言模型中的数据稀疏问题。 展开更多
关键词 自然语言处理 词聚类 互信息 词相似度
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部 意见反馈