命名实体识别是自然语言处理的基础性任务,其结果具有广泛的应用。关联数据由于具有丰富的语义知识,能够对现有命名实体识别进一步完善。本文实现了一个基于关联数据的可配置的中英文命名实体识别系统,在识别过程中对实体进行消歧并对...命名实体识别是自然语言处理的基础性任务,其结果具有广泛的应用。关联数据由于具有丰富的语义知识,能够对现有命名实体识别进一步完善。本文实现了一个基于关联数据的可配置的中英文命名实体识别系统,在识别过程中对实体进行消歧并对识别结果进行扩展,为命名实体识别的进一步完善提供了新的思路。具体包括:基于DBpedia 构造了跨领域的中英文命名实体词典;设计了一个基于Hive 的分布式管理数据存储模型,基于该模型实现了对DBpedia 数据集的组织、存储以及扩展;设计了一个基于图的命名实体识别算法,该算法能够充分利用关联数据的语义关系对命名实体进行消歧,并且基于DBpedia Spotlight NER Corpus 对算法进行测试,并将算法结果与DBpediaSpotlight、NERSO以及Zwmanta 三个系统进行对比评价,结果表明本文实现的算法在查全率、查准率、F值上具有更好的表现。展开更多
目的为了解决包装行业相关文本命名实体识别困难问题,提出在BiLSTM(Bidirectional Long Short-Term Memory)神经网络中加入注意力机制(Attention)和字词联合特征,构建一种基于注意力机制的BiLSTM深度学习模型(简称Attention-BiLSTM),以...目的为了解决包装行业相关文本命名实体识别困难问题,提出在BiLSTM(Bidirectional Long Short-Term Memory)神经网络中加入注意力机制(Attention)和字词联合特征,构建一种基于注意力机制的BiLSTM深度学习模型(简称Attention-BiLSTM),以识别包装命名实体。方法首先构建包装领域词典匹配包装语料中词语的类别特征,同时将包装语料转换为字特征和词特征联合的向量特征,并且在过程中加入POS(词性)信息。然后将以上特征联合馈送到BiLSTM网络,以获取文本的全局特征,并利用注意力机制获取局部特征。最后根据文本的全局特征和局部特征使用CRF(Conditional Random Field)解码整个句子的最优标注序列。结果通过对《中国包装网》新闻数据集的实验,获得了85.6%的F值。结论所提方法在包装命名实体识别中优于传统方法。展开更多
目的:利用命名实体识别(Named Entity Recognition)技术识别文本中出现的中药名词和方剂名词,并比较两种命名实体识别方法在识别中药名词和方剂名词时的表现。方法:方法一为利用现有的分词工具(如'结巴'中文分词工具等)对文本...目的:利用命名实体识别(Named Entity Recognition)技术识别文本中出现的中药名词和方剂名词,并比较两种命名实体识别方法在识别中药名词和方剂名词时的表现。方法:方法一为利用现有的分词工具(如'结巴'中文分词工具等)对文本进行分词,之后使用分词后的结果进行中药名词和方剂名词的匹配。方法二为搭建并训练用于中药名词和方剂名词识别的双向长短期记忆(Bidirectional Long Short Term Memory,BLSTM)神经网络模型。首先,采用两种可行的方法实现命名实体识别。其次,比较这两种方法的表现。结果:现有分词工具对中药名词和方剂名词的分词不准确,因此,会导致接下来的匹配阶段出现错误。而通过BLSTM神经网络模型进行命名实体识别,不但可以避免分词错误,而且在实验中表现出较强的歧义处理能力。结论:在应用命名实体识别技术于识别中药名词和方剂名词时,相比使用分词工具先分词后识别,通过训练神经网络模型对中药名词和方剂名词直接识别的方法更合适。展开更多
文摘命名实体识别是自然语言处理的基础性任务,其结果具有广泛的应用。关联数据由于具有丰富的语义知识,能够对现有命名实体识别进一步完善。本文实现了一个基于关联数据的可配置的中英文命名实体识别系统,在识别过程中对实体进行消歧并对识别结果进行扩展,为命名实体识别的进一步完善提供了新的思路。具体包括:基于DBpedia 构造了跨领域的中英文命名实体词典;设计了一个基于Hive 的分布式管理数据存储模型,基于该模型实现了对DBpedia 数据集的组织、存储以及扩展;设计了一个基于图的命名实体识别算法,该算法能够充分利用关联数据的语义关系对命名实体进行消歧,并且基于DBpedia Spotlight NER Corpus 对算法进行测试,并将算法结果与DBpediaSpotlight、NERSO以及Zwmanta 三个系统进行对比评价,结果表明本文实现的算法在查全率、查准率、F值上具有更好的表现。
文摘目的为了解决包装行业相关文本命名实体识别困难问题,提出在BiLSTM(Bidirectional Long Short-Term Memory)神经网络中加入注意力机制(Attention)和字词联合特征,构建一种基于注意力机制的BiLSTM深度学习模型(简称Attention-BiLSTM),以识别包装命名实体。方法首先构建包装领域词典匹配包装语料中词语的类别特征,同时将包装语料转换为字特征和词特征联合的向量特征,并且在过程中加入POS(词性)信息。然后将以上特征联合馈送到BiLSTM网络,以获取文本的全局特征,并利用注意力机制获取局部特征。最后根据文本的全局特征和局部特征使用CRF(Conditional Random Field)解码整个句子的最优标注序列。结果通过对《中国包装网》新闻数据集的实验,获得了85.6%的F值。结论所提方法在包装命名实体识别中优于传统方法。
文摘目的:利用命名实体识别(Named Entity Recognition)技术识别文本中出现的中药名词和方剂名词,并比较两种命名实体识别方法在识别中药名词和方剂名词时的表现。方法:方法一为利用现有的分词工具(如'结巴'中文分词工具等)对文本进行分词,之后使用分词后的结果进行中药名词和方剂名词的匹配。方法二为搭建并训练用于中药名词和方剂名词识别的双向长短期记忆(Bidirectional Long Short Term Memory,BLSTM)神经网络模型。首先,采用两种可行的方法实现命名实体识别。其次,比较这两种方法的表现。结果:现有分词工具对中药名词和方剂名词的分词不准确,因此,会导致接下来的匹配阶段出现错误。而通过BLSTM神经网络模型进行命名实体识别,不但可以避免分词错误,而且在实验中表现出较强的歧义处理能力。结论:在应用命名实体识别技术于识别中药名词和方剂名词时,相比使用分词工具先分词后识别,通过训练神经网络模型对中药名词和方剂名词直接识别的方法更合适。