期刊文献+
共找到836篇文章
< 1 2 42 >
每页显示 20 50 100
基于Scrapy的招聘信息爬虫设计与实现 预览
1
作者 鲁丰玲 《科技资讯》 2019年第20期7-10,共4页
随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架... 随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架的一种招聘信息主题网络爬虫的设计与实现。主题网络爬虫只搜索与主题信息有关的资源数据,用来服务于高校毕业生群体,作为就业前收集招聘信息的辅助手段。 展开更多
关键词 PYTHON 网络爬虫 主题网络爬虫 网页信息抓取
在线阅读 下载PDF
目前互联网中的网络爬虫的原理和影响 预览
2
作者 赵鑫炜 《数码设计》 2019年第5期50-52,共3页
网络爬虫(Web Crawler)是目前的网络环境中非常主流的的一种获取互联网中有效目标信息的一种技术,爬虫设计和实现已经十分成熟.爬虫的出现给当代互联网带来了巨大的影响,同时也出现在爬虫技术应用上的利弊体现.通过描述爬虫应用的出现... 网络爬虫(Web Crawler)是目前的网络环境中非常主流的的一种获取互联网中有效目标信息的一种技术,爬虫设计和实现已经十分成熟.爬虫的出现给当代互联网带来了巨大的影响,同时也出现在爬虫技术应用上的利弊体现.通过描述爬虫应用的出现的利弊现象,分析其中原理和原因,并给其中爬虫设计方法,及其基于java语言的分析. 展开更多
关键词 网络爬虫 链接检索 文字匹配 爬虫设计 JAVA 多线程
在线阅读 免费下载
基于Selenium的网络爬虫分析与实现 预览
3
作者 樊涛 赵征 刘敏娟 《电脑编程技巧与维护》 2019年第9期155-156,170共3页
随着大数据时代的普及,各行各业每天会产生大量的数据。掌握核心数据,就掌握了公司的命脉,因此数据占极其重要的地位。如何去采集这些数据,并有效提取其中重要价值的数据并去分析是大数据时代最重要的部分。在网络爬虫中,可以利用各种... 随着大数据时代的普及,各行各业每天会产生大量的数据。掌握核心数据,就掌握了公司的命脉,因此数据占极其重要的地位。如何去采集这些数据,并有效提取其中重要价值的数据并去分析是大数据时代最重要的部分。在网络爬虫中,可以利用各种规则爬取这些数据,但是一些动态网站中往往出现复杂的JavaScript加密算法反爬虫的安全措施,导致无法正常获取页面数据。通过Python操作Selenium登录网页,模拟人工操作浏览器,绕过这些反爬虫障碍,从而去获取页面的信息,完成信息的正常获取,大大节省了分析代码的时间。 展开更多
关键词 大数据 网络爬虫 JavaScript脚本语言 爬虫 PYTHON语言 Selenium框架
在线阅读 下载PDF
网络爬虫针对“反爬”网站的爬取策略分析 预览
4
作者 刘清 《信息与电脑》 2019年第3期23-24,共2页
信息时代,计算机技术等相关信息技术得到了空前发展,而网络信息技术已经成为科技发展过程中非常重要的一部分。网络爬虫技术得到了普及,更多个人用户使用网络爬虫技术在网站中获取信息,对目标网站的运营造成了一定影响。基于此,一些网... 信息时代,计算机技术等相关信息技术得到了空前发展,而网络信息技术已经成为科技发展过程中非常重要的一部分。网络爬虫技术得到了普及,更多个人用户使用网络爬虫技术在网站中获取信息,对目标网站的运营造成了一定影响。基于此,一些网站采取了相应措施,比如反爬虫技术,防止网络爬虫。笔者分析了网站的一些反爬虫策略,并提出几点见解。 展开更多
关键词 网络爬虫 爬虫 抓取策略
在线阅读 下载PDF
浅议基于 Python 的可配置网络爬虫 预览
5
作者 何波 《信息周刊》 2019年第30期0472-0472,0474共2页
数据在获取的过程中,会受到网络形势复杂性的影响,一般的网络爬虫已经难以适应当前网络发展的需要,数据查找时会出现很多的错误。而Python语可配置网络爬虫通过Python就可以对多线程爬虫程序轻松实现,进行Python可配置爬虫设计,已经成... 数据在获取的过程中,会受到网络形势复杂性的影响,一般的网络爬虫已经难以适应当前网络发展的需要,数据查找时会出现很多的错误。而Python语可配置网络爬虫通过Python就可以对多线程爬虫程序轻松实现,进行Python可配置爬虫设计,已经成为提高网络运行的主要方式。 展开更多
关键词 可配置 网络爬虫 爬虫框架
在线阅读 下载PDF
基于Go的多线程模块化爬虫框架设计与实现 预览
6
作者 刘国玺 刘江 +2 位作者 徐海峰 张雁 吕丹桔 《现代计算机》 2019年第21期74-77,共4页
为了提高网络爬虫的速率和爬虫程序的开发效率,利用大部分网站采用动态填充视图模板生成结构相同但内容不同的多个页面的特点,设计一个基于Go的多线程模块化爬虫框架。通过爬虫框架的实现和实验结果表明,此方法提升开发效率,有效解决普... 为了提高网络爬虫的速率和爬虫程序的开发效率,利用大部分网站采用动态填充视图模板生成结构相同但内容不同的多个页面的特点,设计一个基于Go的多线程模块化爬虫框架。通过爬虫框架的实现和实验结果表明,此方法提升开发效率,有效解决普通爬虫中常见的单线程太慢、多线程难以控制等问题。 展开更多
关键词 多线程 GO 网络爬虫 模块化爬虫
在线阅读 免费下载
网站反爬虫策略的分析与研究 预览
7
作者 伏康 杜振鹏 《电脑知识与技术:学术版》 2019年第10期28-30,共3页
随着大数据时代的来临,大数据在日常生活中的应用显得尤为重要。如何便捷、快速地获取数据将成为提高竞争力的重要手段,而通过网络爬虫这一新兴技术能够非常高效的获取网络中的数据。但是如果不对爬虫进行控制,爬虫也会对网站造成巨大... 随着大数据时代的来临,大数据在日常生活中的应用显得尤为重要。如何便捷、快速地获取数据将成为提高竞争力的重要手段,而通过网络爬虫这一新兴技术能够非常高效的获取网络中的数据。但是如果不对爬虫进行控制,爬虫也会对网站造成巨大危害。为了减少网络爬虫对于网站的危害,详细阐述了网络爬虫的工作原理、种类以及URL的搜索策略,针对某些网站的"反爬"措施,提出相应的提出几种反爬策略。从而减轻了网站服务器压力,保护了数据,防止数据的大量流失。 展开更多
关键词 大数据 网络爬虫 爬虫 反爬措施 反爬策略
在线阅读 下载PDF
基于Python的网络爬虫与反爬虫技术研究 预览 被引量:2
8
作者 李培 《计算机与数字工程》 2019年第6期1415-1420,1496共7页
论文主要为网络爬虫的设计及实现、反爬虫技术的实现及相关技术的研究。通过研究目标网站爬虫门槛的协商及通过的条件,及反爬虫相关技术及最新发展。基于Python设计及实现一个完整的网络爬虫,最终完成了对目标网站所有文章数据的提取和... 论文主要为网络爬虫的设计及实现、反爬虫技术的实现及相关技术的研究。通过研究目标网站爬虫门槛的协商及通过的条件,及反爬虫相关技术及最新发展。基于Python设计及实现一个完整的网络爬虫,最终完成了对目标网站所有文章数据的提取和存储,并借助对实验室内部网站的测试并实现了绕过反爬虫及反爬虫技术的研究,并对网络爬虫及反爬虫技术进行了理论说明和发展展望。 展开更多
关键词 网络爬虫 Scrapy框架 爬虫
在线阅读 下载PDF
基于网页浏览行为的反爬虫研究 预览 被引量:1
9
作者 刘洋 《现代计算机》 2019年第7期58-60,70共4页
在大数据的背景下,数据的潜在价值被不断地挖掘出来。能够有效识别或阻挡爬取行为的反爬虫方法对于商业服务网站来说尤为重要。基于网页浏览行为,提出一种新的反爬虫方法。该方法通过对真实用户和网络爬虫浏览网页的行为进行特征提取,... 在大数据的背景下,数据的潜在价值被不断地挖掘出来。能够有效识别或阻挡爬取行为的反爬虫方法对于商业服务网站来说尤为重要。基于网页浏览行为,提出一种新的反爬虫方法。该方法通过对真实用户和网络爬虫浏览网页的行为进行特征提取,然后构造并使用决策树对一个用户是否属于爬虫进行预测。该方法对网络爬虫的敏感性高,并具有较低的假阴率。 展开更多
关键词 网络爬虫 爬虫方法 用户浏览行为 网站
在线阅读 免费下载
网络爬虫行为的刑事规制研究——以侵犯公民个人信息犯罪为视角 预览
10
作者 刘艳红 《政治与法律》 CSSCI 北大核心 2019年第11期16-29,共14页
网络爬虫在其被使用以来的二十余年时间里,之前被人们视为没有问题的中立技术,如今被人们视为“道德上可疑的并可被视为违法”的技术。结合侵犯公民个人信息的具体领域和行为,情境化地探讨网络爬虫行为违法性及其刑事规制问题,具有重要... 网络爬虫在其被使用以来的二十余年时间里,之前被人们视为没有问题的中立技术,如今被人们视为“道德上可疑的并可被视为违法”的技术。结合侵犯公民个人信息的具体领域和行为,情境化地探讨网络爬虫行为违法性及其刑事规制问题,具有重要意义。网络安全法与公民个人信息保护法等确立的公民个人信息保护合法性原则,以及网络爬虫领域规范爬虫行为的行业规则即爬虫协议(Robots协议),是判断爬虫行为形式上非法的重要标准。对爬虫行为侵犯公民个人信息是否构成犯罪还应从实质上加以判断。行为人在权限许可范围内使用爬虫行为获取公民个人信息,或采取爬虫行为非法收集的公民个人信息无法识别特定自然人身份等行为,不构成犯罪。通过形式判断与实质判断、形式入罪与实质出罪双重机制,可以合理实现对网络爬虫行为的刑事规制。 展开更多
关键词 网络爬虫 合法性原则 爬虫协议 侵犯公民个人信息 形式判断 实质判断
在线阅读 下载PDF
网络爬虫反爬策略研究 预览
11
作者 胡俊潇 陈国伟 《科技创新与应用》 2019年第15期137-138,140共3页
网络爬虫在工作时会对目标站点发送大量的请求,这样的爬虫工作方式决定了其会消耗不少目标站点的服务器资源,这对于一个服务器不大的中小型站点来说负载是巨大的,甚至会导致该站点直接崩溃。另外某些网站也不希望自己的内容被轻易的获取... 网络爬虫在工作时会对目标站点发送大量的请求,这样的爬虫工作方式决定了其会消耗不少目标站点的服务器资源,这对于一个服务器不大的中小型站点来说负载是巨大的,甚至会导致该站点直接崩溃。另外某些网站也不希望自己的内容被轻易的获取,如电商网站的交易额,这些数据是一个互联网产品的核心,因此采取一定的手段保护敏感的数据。因此很多网站都在站点中加入了反爬机制。例如User-Agent+Referer检测、账号登陆及Cookie验证等。文章讨论了几种主流的方法来避免爬虫被目标站点服务器封禁,从而保证爬虫的正常运行。 展开更多
关键词 网络爬虫 爬虫 抓取策略
在线阅读 下载PDF
基于Scrapy框架的爬虫和反爬虫研究 预览 被引量:4
12
作者 韩贝 马明栋 王得玉 《计算机技术与发展》 2019年第2期139-142,共4页
伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。... 伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。网络爬虫又称为网络蜘蛛或网络机器人,可以按照使用人定制的规则,短时间内在万维网上搜集大量特定信息。网络爬虫在爬取信息的同时,也带了一些问题,如大量信息被非正常获取,是一种损失,同时,大量爬虫对网站维护也是一个巨大的负担。如何在维护网民正常访问的前提下,有效阻止这些爬虫就显得十分重要。因此,文中主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫,对目前网站常用的一些反爬虫手段进行分析,基于Scrapy框架以及具体网站,举例说明爬虫如何应对网站这些反爬措施。 展开更多
关键词 网站 网络爬虫 爬虫 PYTHON Scrapy框架
在线阅读 下载PDF
Scrapy框架下反反爬虫和数据有序性的实现 预览
13
作者 向洋 董林鹭 宋弘 《宜宾学院学报》 2019年第6期42-46,共5页
在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦... 在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取useragent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高. 展开更多
关键词 scrapy框架 网络爬虫 数据有序性 反反爬虫机制
在线阅读 下载PDF
基于卷积神经网的网上爬取图片的自动分类 预览
14
作者 陈磊 李鹤喜 《现代信息科技》 2019年第15期91-93,96共4页
本文采用网络爬虫技术,根据关键字自动收集所用图片数据集,并对爬取到的图片进行除杂与标注,省去了人工收集的过程,提高了制作数据集的效率。搭建并训练了一个9层的卷积神经网络模型用于处理爬取图片的自动分类,经实验证明,训练后的模型... 本文采用网络爬虫技术,根据关键字自动收集所用图片数据集,并对爬取到的图片进行除杂与标注,省去了人工收集的过程,提高了制作数据集的效率。搭建并训练了一个9层的卷积神经网络模型用于处理爬取图片的自动分类,经实验证明,训练后的模型对6类球和5类犬的识别准确率可达90%以上,可以用于网络爬取图片的自动分类。 展开更多
关键词 网络爬虫 图像分类 神经网络 深度学习
在线阅读 下载PDF
基于Python爬虫的校园数据获取 预览
15
作者 苏艺航 徐海蛟 +2 位作者 何佳蕾 杨振宇 王佳鹏 《电脑知识与技术:学术版》 2019年第6Z期86-88,共3页
随着移动时代的到来,只适配了电脑网页、性能羸弱的校园教务系统,已经不能满足学生们的移动查询需求。为此,设计了一种基于网络爬虫的高实用性查询系统。它首先通过Python爬虫以HTTP(hypertext transport protocol)分析与模拟方法获取... 随着移动时代的到来,只适配了电脑网页、性能羸弱的校园教务系统,已经不能满足学生们的移动查询需求。为此,设计了一种基于网络爬虫的高实用性查询系统。它首先通过Python爬虫以HTTP(hypertext transport protocol)分析与模拟方法获取校园教务系统的网页数据,然后对网页数据进行HTTP解析并定位以精确抽取目标校园数据,最后存入高速NoSQL数据库以供快速查询。通过课表获取实例,验证了该设计的可行性与有效性。 展开更多
关键词 网络爬虫 HTTP分析 模拟登陆 网络反爬 Scrapy框架
在线阅读 下载PDF
网络舆情监测的数据采集与文本分类技术分析 预览
16
作者 杜锦绣 蔡静 《无线互联科技》 2019年第15期123-124,共2页
在这个信息爆炸的网络时代,基于网络与社会舆论而诞生的网络舆情,成为社会、国家关注的研究重点之一,构建互联网时代的舆情监控体系成了当前信息化时代的迫切需求。文章从网络舆情分析与监管的意义入手,介绍了国内外关于网络舆情监测的... 在这个信息爆炸的网络时代,基于网络与社会舆论而诞生的网络舆情,成为社会、国家关注的研究重点之一,构建互联网时代的舆情监控体系成了当前信息化时代的迫切需求。文章从网络舆情分析与监管的意义入手,介绍了国内外关于网络舆情监测的研究,围绕舆情采集、数据预处理、文本分类技术大致介绍了网络舆情研究的关键技术与步骤。 展开更多
关键词 网络舆情 网络爬虫 多标签文本分类
在线阅读 下载PDF
网络爬虫的专题机构数据空间信息采集方法
17
作者 杨宇 孙亚琴 闫志刚 《测绘科学》 CSCD 北大核心 2019年第7期122-127,140共7页
针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了... 针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取。通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法。 展开更多
关键词 泛在网络 空间信息采集 网络爬虫 矩阵算法 决策树
基于BP神经网络的网络小说排行预测 预览 被引量:1
18
作者 龙彬 胡思才 +1 位作者 郭峻铭 李旭伟 《四川大学学报:自然科学版》 CAS CSCD 北大核心 2019年第1期50-56,共7页
近年来随着“IP”热潮兴起,网络文学市场发展迅速,逐渐成为文化娱乐行业投资热点.本文将机器学习方法引入到小说排行预测方面,通过网络爬虫获取网络小说信息并提取了影响排行的特征,提出了基于BP神经网络模型进行小说排行预测.针对训练... 近年来随着“IP”热潮兴起,网络文学市场发展迅速,逐渐成为文化娱乐行业投资热点.本文将机器学习方法引入到小说排行预测方面,通过网络爬虫获取网络小说信息并提取了影响排行的特征,提出了基于BP神经网络模型进行小说排行预测.针对训练数据的不均衡,本文采用ROC和AUC作为预测评价指标;实验结果表明,基于BP神经网络的网络小说排行预测的准确率较高,相比传统的文学定性分析方法,机器学习预测方法可解释性和应用性更高. 展开更多
关键词 “IP”热潮 小说排行预测 BP神经网络 网络爬虫 ROC曲线 AUC值
在线阅读 免费下载
基于神经网络的商业数据挖掘的分析与实现 预览
19
作者 徐枫 陈辉 《科技视界》 2019年第11期240-241,共2页
随着信息技术的发展以及数据库管理系统的广泛应用,作为系统数据支撑的数据库,其存储的数据量急剧增大。运用网络爬虫技术和BP神经网络技术,可以提取到这些海量的数据背后隐藏着的许多重要信息。本文阐述了一种网络爬虫技术和增加动量... 随着信息技术的发展以及数据库管理系统的广泛应用,作为系统数据支撑的数据库,其存储的数据量急剧增大。运用网络爬虫技术和BP神经网络技术,可以提取到这些海量的数据背后隐藏着的许多重要信息。本文阐述了一种网络爬虫技术和增加动量因子的BP神经网络算法在数据挖掘中的应用及实现方法。 展开更多
关键词 数据挖掘 网络爬虫 BP神经网络
在线阅读 下载PDF
布隆算法在网络爬虫中的应用 预览
20
作者 杨力 《电子世界》 2019年第3期156-156,158共2页
随着计算机网络的发展,尤其是手机以及各种智能联网设备的发展,互联网的数据规模越来越庞大。如此巨量的信息一方面丰富了人们的生活,但另一方面如何去除重复信息,获得有效信息也成为了互联网的一个重要问题。网络爬虫也面临着相同的去... 随着计算机网络的发展,尤其是手机以及各种智能联网设备的发展,互联网的数据规模越来越庞大。如此巨量的信息一方面丰富了人们的生活,但另一方面如何去除重复信息,获得有效信息也成为了互联网的一个重要问题。网络爬虫也面临着相同的去重问题。布隆算法是一种应用广泛的去重算法,有着查询速度快和占用空间低的优点。本文介绍布隆算法在网络爬虫中的应用,通过布隆算法来进行网址识别,过滤重复网址,提高爬虫性能。引言:随着计算机以及相关技术的发展,互联网的发展日新月异,总体规模也越来越大,对于经济、社会、科技的飞速发展起到了重大的作用。 展开更多
关键词 去重算法 网络爬虫 应用 计算机网络 互联网 联网设备 占用空间 查询速度
在线阅读 下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部 意见反馈