期刊文献+
共找到445篇文章
< 1 2 23 >
每页显示 20 50 100
数据治理技术 预览
1
作者 吴信东 董丙冰 +1 位作者 堵新政 杨威 《软件学报》 EI CSCD 北大核心 2019年第9期2830-2856,共27页
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实... 随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据 HAO 治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO 治理的应用;最后是对数据治理的总结和展望. 展开更多
关键词 数据治理 数据规范 数据清洗 数据交换 数据集成
在线阅读 下载PDF
基于时效规则的数据修复方法 预览
2
作者 段旭良 郭兵 +3 位作者 沈艳 申云成 董祥千 张洪 《软件学报》 EI CSCD 北大核心 2019年第3期589-603,共15页
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不... 数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果. 展开更多
关键词 数据质量 数据时效 数据修复 数据清洗 个人大数据
在线阅读 下载PDF
交通轨迹大数据预处理方法研究 预览
3
作者 张玺君 袁占亭 +2 位作者 张红 高玮军 张恩展 《计算机工程》 CAS CSCD 北大核心 2019年第6期26-31,共6页
针对交通轨迹大数据的非平稳特性,研究交通轨迹大数据预处理方法。根据二维离散小波的多分辨率分析特点,选用二维离散小波对交通轨迹大数据进行去噪和压缩处理。构建交通轨迹大数据预处理平台,结合道路交通拥堵状态评判标准,实时分析重... 针对交通轨迹大数据的非平稳特性,研究交通轨迹大数据预处理方法。根据二维离散小波的多分辨率分析特点,选用二维离散小波对交通轨迹大数据进行去噪和压缩处理。构建交通轨迹大数据预处理平台,结合道路交通拥堵状态评判标准,实时分析重要路段的交通状况。分析结果表明,该方法能够提高数据处理速度和拥堵路段分析精度。 展开更多
关键词 轨迹数据 数据清理 小波变换 大数据 数据挖掘
在线阅读 下载PDF
基于ETL技术的装备大数据治理应用 预览
4
作者 韩戈白 王博 +1 位作者 陈迪 杨绍雄 《电子质量》 2019年第4期34-43,共10页
为解决军用和民用装备领域各类信息系统,多源、异构数据融合难的问题。该文提出一种基于ETL技术的装备大数据治理方案,主要包括多源数据抽取服务、数据清洗服务及数据加载服务;提出了数据标准统一和数据处理、全量与增量抽取等关键技术... 为解决军用和民用装备领域各类信息系统,多源、异构数据融合难的问题。该文提出一种基于ETL技术的装备大数据治理方案,主要包括多源数据抽取服务、数据清洗服务及数据加载服务;提出了数据标准统一和数据处理、全量与增量抽取等关键技术;为装备大数据的治理融合提供了一种可行的方式。 展开更多
关键词 装备大数据 数据治理 数据抽取 数据清洗
在线阅读 下载PDF
基于真值发现的加油站车辆号牌缺损数据填充方法 预览
5
作者 彭新亮 程力 +3 位作者 王轶 马博 赵凡 周喜 《计算机应用与软件》 北大核心 2019年第8期41-46,74共7页
由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因,致使加油站车辆加油数据中经常会产生数据的丢失和错误,降低了车辆加油数据的完整性,严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺... 由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因,致使加油站车辆加油数据中经常会产生数据的丢失和错误,降低了车辆加油数据的完整性,严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺损问题,但是它们并不适用于车辆号牌这种离散型分类数据。提出一种基于改进TruthFinder算法的缺损值填充框架。基于真值发现算法,考虑到离散数据相似度的计算方式,改进原算法对数据值支持度的计算模型。通过在真实加油站车辆数据集上的实验,相较于原算法及更加通用的Voting算法,正确率分别提升了7%和23%。该方法能部分解决类似加油站车辆加油数据这种多源离散型数据的缺损值填充问题,大大提高了此数据的可用性。 展开更多
关键词 数据清洗 车辆加油数据 缺失数据填充 真值发现
在线阅读 下载PDF
基于大数据的配电网规划数据自动收资处理技术研究
6
作者 方兵 宁光涛 +2 位作者 俞悦 张佳艺 王悦 《电气应用》 2019年第5期34-39,共6页
通过基于版本化的电气网络图模管理技术的研究,实现对存储于通用关系数据库中的版本化电网模型数据进行有效管理,使得规划系统通过自动化方式获取数据已经逐渐具备了应用条件。基于海南电网GIS平台、海量准实时数据平台和海南电网数据... 通过基于版本化的电气网络图模管理技术的研究,实现对存储于通用关系数据库中的版本化电网模型数据进行有效管理,使得规划系统通过自动化方式获取数据已经逐渐具备了应用条件。基于海南电网GIS平台、海量准实时数据平台和海南电网数据中心等基础数据平台,研究海南配电网规划核心大数据自动化收资管理关键技术,建设配电网规划数据管理模型,实现基础数据自动化或半自动化采集、存储和数据再定义,同时实现基础数据的智能统计分析,为配电网规划提供数据,对配电网规划过程和成果数据实行版本化的全过程管理。 展开更多
关键词 大数据 配电网模型 数据清洗 数据融合
数据产权界定:多维视角与体系建构
7
作者 朱宝丽 《法学论坛》 CSSCI 北大核心 2019年第5期78-86,共9页
数据与信息紧密相关但又有区别。基于视角和立场的差异,数据产权归属存在不同声音,应按照物权法原理来界定。从制度经济学和法学两个维度来看,公共数据产权归属国家;自然人或企业自身参与市场活动产生的显名数据产权归属于数据产生者,... 数据与信息紧密相关但又有区别。基于视角和立场的差异,数据产权归属存在不同声音,应按照物权法原理来界定。从制度经济学和法学两个维度来看,公共数据产权归属国家;自然人或企业自身参与市场活动产生的显名数据产权归属于数据产生者,互联网平台双边或多边交易产生数据的产权依照约定或法律规定归属一方或多方共有;清洗脱敏、匿名的增值数据产权归付出劳动者即添附者。数据产权体系涉及诸多主体,在数据使用方面,应坚持基础数据重在权利保护、增值数据重在自由流畅的原则。 展开更多
关键词 数据产权 界定 基础数据 数据清洗
变压器油色谱在线监测数据甄别与清洗技术 预览
8
作者 黄云程 高阿娜 +1 位作者 王翌 林涌艺 《电力科学与工程》 2019年第6期37-43,共7页
油色谱在线监测系统能够连续、实时监测主变内部绝缘状况,其监测数据是否准确、可靠直接关系到主变的安全稳定运行。经调查,福建省电网在用主变油色谱在线监测系统的运行现状,发现系统存在报警信号滞后、传感器装置故障频次较高造成数... 油色谱在线监测系统能够连续、实时监测主变内部绝缘状况,其监测数据是否准确、可靠直接关系到主变的安全稳定运行。经调查,福建省电网在用主变油色谱在线监测系统的运行现状,发现系统存在报警信号滞后、传感器装置故障频次较高造成数据不可靠等问题。为此,首先提出采用滑动窗口的形式实时采集在线监测数据,利用基于密度模式的空间数据聚类算法将滑动窗口内数据逐一甄别;其次,针对不同数据类型的在线监测系统"脏数据",采取不同清洗手段,并利用小波神经网络算法预测和填补清洗数据点;最后,通过实例验证所提方法能够准确甄别在线监测数据类型,有效地清洗在线监测"脏数据",提升在线监测数据的可靠性和数据处理及时性。 展开更多
关键词 油色谱 在线监测 数据甄别 数据清洗
在线阅读 下载PDF
经验取样法的数据分析:方法及应用 被引量:1
9
作者 邢璐 骆南峰 +2 位作者 孙健敏 李诗琪 尹奎 《中国人力资源开发》 CSSCI 北大核心 2019年第1期35-52,共18页
经验取样法是通过对调查对象多次重复测量进行数据收集的研究方法 ,近年来受到研究者广泛关注。本文主要基于《应用心理学期刊》(Journal of Applied Psychology)2010~2017年刊发的34篇文献,总结并述评经验取样数据分析中的四个关键成... 经验取样法是通过对调查对象多次重复测量进行数据收集的研究方法 ,近年来受到研究者广泛关注。本文主要基于《应用心理学期刊》(Journal of Applied Psychology)2010~2017年刊发的34篇文献,总结并述评经验取样数据分析中的四个关键成分及具体操作:数据的结构设置、数据清理、所用测量工具的信效度检验、假设检验方法。具体包括,数据由于重复抽样而形成不同的嵌套结构;数据清理涉及异常值、缺失值的识别与处理;信效度计算方法区别于一般研究;假设检验时,依据研究问题("变量之间的关系"与"变量随时间的变化")选择相应的模型构建和估计方式。此外,收集国内期刊刊发的12篇实证文献,将其与国际期刊中经验取样数据的分析步骤及操作方法进行比较。最后,对未来研究如何丰富及完善数据分析过程作了展望。 展开更多
关键词 经验取样法 嵌套结构 数据清理 信效度 假设检验
基于正则表达式的海量数据清洗系统 预览
10
作者 常征 吕勇 《计算机应用》 CSCD 北大核心 2019年第10期2942-2947,共6页
针对目前主流的数据提取、变形、加载(ETL)工具和受限环境下一些应用的不足之处,结合受限应用场景下的特殊要求,提出一种基于正则表达式的海量数据清洗系统(REMCS)。REMCS首先针对超长错误数据问题、批量数据源文件融合问题、数据源文... 针对目前主流的数据提取、变形、加载(ETL)工具和受限环境下一些应用的不足之处,结合受限应用场景下的特殊要求,提出一种基于正则表达式的海量数据清洗系统(REMCS)。REMCS首先针对超长错误数据问题、批量数据源文件融合问题、数据源文件自动分拣问题等典型的6个问题找到数据的特点,其次根据数据的特点设置合适的正则表达式和预处理算法,然后使用算法模型去除数据中的错误完成数据预处理工作。同时详细阐述了REMCS的系统逻辑结构、常见问题、对应的解决算法和代码实现方案。最后通过对兼容的数据源文件格式、能够处理的问题种类、问题处理时间、处理数据极限值等4个方面进行对比,从几组常见的数据处理问题的对比实验可知,相较于传统的ETL工具,REMCS支持csv格式、json格式、dump格式等典型的9种文件格式,能够处理全部的6种常见问题,处理时间更短,能够支持的数据极限值更大。实验结果验证了针对受限应用场景下常见的数据处理问题,REMCS具有很好的适用性和准确性。 展开更多
关键词 正则表达式 数据清洗 大数据 提取、变形、加载工具
在线阅读 下载PDF
基于自发式地理信息的武汉市城市热点空间分析 预览
11
作者 林木森 王道飘 +1 位作者 刘博源 黎华 《华中师范大学学报:自然科学版》 CAS CSCD 北大核心 2019年第1期147-153,共7页
随着中国城市化进程的加快,城市人口比例增加,以城市与人类之间的相互影响、相互作用为研究背景和方向的理论研究,越来越受到相关学者以及城市规划管理部门的关注和重视.选取武汉市武昌区为研究范围,以谷歌地球软件为平台,通过采集公众... 随着中国城市化进程的加快,城市人口比例增加,以城市与人类之间的相互影响、相互作用为研究背景和方向的理论研究,越来越受到相关学者以及城市规划管理部门的关注和重视.选取武汉市武昌区为研究范围,以谷歌地球软件为平台,通过采集公众上传的VGI照片数据,在数据预处理的基础上,运用核密度估计方法绘制城市热点空间分布图,研究市民对城市空间的偏好.基于自发式地理信息(VGI)作为样本数据来源所具有的多时间尺度特征,挖掘在年际和月际变化中城市热点空间格局及其演化趋势.研究表明,武昌区热点空间的分布格局相对稳定.在年际变化中,武汉长江大桥、黄鹤楼、武汉大学珞珈山作为核心热区受到关注度高;以武昌火车站和湖北省博物馆为中心的城市空间热度较高,且在逐年提高中趋于稳定.在月度变化中,武昌区城市热点空间格局在总体上呈现出很强的一致性,但是公众对热区的关注度在年内存在波动,其在9、10月份急剧增长并达到全年顶峰. 展开更多
关键词 VGI数据 数据清洗 核密度估计法 热点空间
在线阅读 下载PDF
基于华为大数据平台的电商网站建设优化 预览
12
作者 刘磊 黄嘉浩 +1 位作者 许锐强 蔡欣桦 《现代计算机》 2019年第4期88-91,96共5页
电商类网站作为主流Web应用,每日有大量用户访问,用户浏览商品、购买商品、注册登录等行为产生海量的源数据,为更好了解网站运营情况,优化网站建设,通过华为大数据平台深度分析挖掘电商网站产生的海量源数据,步骤包括设计分析方案、源... 电商类网站作为主流Web应用,每日有大量用户访问,用户浏览商品、购买商品、注册登录等行为产生海量的源数据,为更好了解网站运营情况,优化网站建设,通过华为大数据平台深度分析挖掘电商网站产生的海量源数据,步骤包括设计分析方案、源数据分析、数据预处理、HQL分析、使用Java编程分析等,得出可视化的分析结果,为电商网站建设优化提供参考。 展开更多
关键词 大数据平台 数据清洗 HQL分析 MAPREDUCE 可视化结果
在线阅读 免费下载
基于改进的BP神经网络水果生长气候的数据清洗方法研究 预览
13
作者 冯力 谢东 《湖南工业职业技术学院学报》 2019年第4期16-20,56共6页
农植物生长环境受多种指标的影响,为了切实地清洗数据和对农植物未来进行准确地预测,必须对数据进行准确的清洗,采用改进Levenberg-Marquardt算法(L-M BP神经网络算法),同时增加用隐节点数优化来改进BP神经网络算法,来减低迭代次数和加... 农植物生长环境受多种指标的影响,为了切实地清洗数据和对农植物未来进行准确地预测,必须对数据进行准确的清洗,采用改进Levenberg-Marquardt算法(L-M BP神经网络算法),同时增加用隐节点数优化来改进BP神经网络算法,来减低迭代次数和加快约束速率。本研究采用该算法来建立数据清洗模型,首先对样本进行预处理,对建立的异常数据进行训练和得到的结果反复验证,得到的误差控制在3.0%以内,且模拟的网络值能真实反应的变化趋势。该模型适用对农植物生长气候异常数据清洗数据和预测。 展开更多
关键词 农植物 生长气候 异常数据 数据清洗 改进BP神经网络
在线阅读 下载PDF
基于异常数据清洗与混沌分析的变压器绝缘老化机理研究
14
作者 汤心韵 黎佳 +1 位作者 李政廉 张淼 《电气应用》 2019年第8期43-49,80共8页
由于变压器绝缘老化过程非常复杂,对其还需从多种角度进行深入研究。文章通过研究变压器的油中溶解气体色谱数据,进一步探索变压器的绝缘老化特性。由于变压器油色谱数据易包含异常干扰数据,这将影响到后续对变压器绝缘老化机理的研究,... 由于变压器绝缘老化过程非常复杂,对其还需从多种角度进行深入研究。文章通过研究变压器的油中溶解气体色谱数据,进一步探索变压器的绝缘老化特性。由于变压器油色谱数据易包含异常干扰数据,这将影响到后续对变压器绝缘老化机理的研究,因此采用一种基于迭代检验算法的异常数据清洗方法来有效识别并修正油色谱原始数据中的异常数据。然后将变压器绝缘老化过程分为10个阶段,从阶段1~阶段10,其老化程度不断加深。采用混沌分析方法提取出各绝缘老化阶段下,变压器油色谱数据的混沌特征量,深入研究了变压器油色谱数据的混沌特性与绝缘老化发展阶段的关系。 展开更多
关键词 变压器 油色谱数据 数据清洗 混沌特性 绝缘老化阶段
基于划分的海量数据相似重复记录检测 预览
15
作者 李莉 张晓雯 《计算机系统应用》 2019年第3期172-178,共7页
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集... 针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升. 展开更多
关键词 数据质量 数据清洗 相似重复记录 划分 SNM算法
在线阅读 下载PDF
基于JAVA的汽车用钢使用性能数据库的开发
16
作者 金磊 王宝川 +3 位作者 杨建炜 刘路璐 李亚东 胡开广 《冶金自动化》 2019年第2期23-28,共6页
为了应对车企对日益增多的各类钢种性能数据的需求,采用JAVA编程语言,设计开发汽车用钢使用性能数据库,既可通过收集分析汽车用钢各项性能试验数据结果,实现对各钢种性能数据的查询和对比,又可通过神经网络和数据挖掘技术快速判定汽车... 为了应对车企对日益增多的各类钢种性能数据的需求,采用JAVA编程语言,设计开发汽车用钢使用性能数据库,既可通过收集分析汽车用钢各项性能试验数据结果,实现对各钢种性能数据的查询和对比,又可通过神经网络和数据挖掘技术快速判定汽车板常见成形质量问题的原因,提出解决方案;此外,采用数据清洗技术,通过力学分析算法快速生成材料硬化曲线,应用Autoform软件生成高仿真度材料性能数据卡,以满足车企对材料CAE仿真的需求。该数据库的建立,降低了用户需求研究成本,提高了钢种性能研究工作的效率。 展开更多
关键词 汽车用钢 数据库 JAVA 数据挖掘 数据清洗
相似重复数据检测的数据清洗算法优化 预览
17
作者 蒋园 韩旭 +1 位作者 马丹璇 罗登昌 《计算机技术与发展》 2019年第10期79-82,共4页
数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即“脏数据”。脏数据如果不进行处理,势必会影响后续数据的操作,最终影响到数据的质量。数据清洗是处理脏数据、提高... 数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即“脏数据”。脏数据如果不进行处理,势必会影响后续数据的操作,最终影响到数据的质量。数据清洗是处理脏数据、提高数据质量的热门技术手段,而其中相似重复数据检测更是数据清洗中的重要方面,比如堤防工程的数据存在很多地名、经纬度、砖孔数据等等,录入到数据库时相似重复度很高。目前针对重复数据检测应用最多的是SNM(基本邻近有序法)算法,主要是先将原有的数据集进行排序,再比较排序后相邻数据的相识度。但这种算法的时间复杂度很高。文中对SNM算法进行优化,首先将数据库记录的属性值进行分类,并结合三区间排序算法进行排序来减少比对范围,最后通过设定属性的权重并求和,根据记录相似度的结果来判断。实验结果证明了该算法的正确性。 展开更多
关键词 脏数据 相似重复 数据清洗 SNM算法
在线阅读 下载PDF
浅析海洋数据成果质量问题与清洗方法 预览
18
作者 吕文斌 秦笠伟 洪敏慎 《数字技术与应用》 2019年第8期222-223,225共3页
随着上海市水务海洋数据中心的建设运行,每天都要汇聚全市多个涉海部门的大量海洋类监测数据。针对这些不同源端数据存在的一些结构问题、格式问题、缺失问题、噪点问题等,进行了技术清洗和规范整合。
关键词 海洋 数据治理 数据清洗
在线阅读 下载PDF
劣质数据上代价敏感决策树的建立 预览
19
作者 齐志鑫 王宏志 +2 位作者 周雄 李建中 高宏 《软件学报》 EI CSCD 北大核心 2019年第3期604-619,共16页
代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进... 代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据清洗工作所需要的时间和金钱代价往往很高,许多用户给出了自己可接受的数据清洗代价最大值,并要求将数据清洗的代价控制在这一阈值内.因此除了误分类代价和测试代价以外,劣质数据的清洗代价也是代价敏感决策树建立过程中的一个重要因素.然而,现有代价敏感决策树建立的相关研究没有考虑数据质量问题.为了弥补这一空缺,着眼于研究劣质数据上代价敏感决策树的建立问题.针对该问题,提出了3种融合数据清洗算法的代价敏感决策树建立方法,并通过实验证明了所提出方法的有效性. 展开更多
关键词 代价敏感决策树 劣质数据 数据清洗 误分类代价 测试代价
在线阅读 下载PDF
两两比较模型的Why-not问题解释及排序 预览
20
作者 祁丹蕊 宋韶旭 王建民 《软件学报》 EI CSCD 北大核心 2019年第3期620-647,共28页
由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为“Why-not问题”,即“为什么预期的元组不会出现在结果中”.现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法由用户探索.完整... 由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为“Why-not问题”,即“为什么预期的元组不会出现在结果中”.现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法由用户探索.完整性约束,如函数依赖,被用来排除不合格的解释.然而,许多属性在简化后解释中仅仅表示为变量,用户可能仍然无法理解.由于数据稀疏性,许多不合理的解释也会被推荐给用户.提出通过研究元组间两两比较关系,从而对Why-not问题的解释进行排序的方法.首先,重新定义为什么Why-not问题解释的形式没有变量,以便于用户理解;其次,对元组中的相等/不相等关系进行表示,提出在{0,1}表示的元组对的基础上学习统计模型,从而解决直接在原始数据上学习所带来的稀疏性问题,许多模型可以被用来推断概率,包括统计分布、分类和回归;最后,根据推断的概率对解释进行评价和排序.实验结果证明:利用统计、分类和回归方法计算两两关系概率分布的方法,可以为用户寻找Why-not问题的解释并返回较为高质量的解释. 展开更多
关键词 数据质量 数据清洗 条件函数依赖 缺失结果解释 解释排序
在线阅读 下载PDF
上一页 1 2 23 下一页 到第
使用帮助 返回顶部 意见反馈