词条 网络爬虫

网络爬虫

网络爬虫英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人英语Internet bot。其目的一般为编纂网络索引英语Web indexing

网络英语Web search engine搜索引擎等站点通过爬虫软件更新自身的网站内容英语Web content或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引英语Index (search engine)供用户搜索。

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫需要考虑到规划、负载,还需要讲“礼貌”。 不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人英语Software agent只对网站的一部分进行索引,或完全不作处理。

互联网上的页面极多,即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的...

网络爬虫相关文献
网络推手
推介对象与媒介被推介的对象是要有一定成名“天分”,对女性来说,一般长得需要漂亮。某网络推手曾评价同行:“他本身不是美女,而且这个计划没有故事情节,不会有那么大的关注度”。不过也有特例,如某网络推手推出的“芙蓉姐姐”。互联网具有低成本的营销环境,并且有可以快速传播的特点。网络推手们主要使用的推广媒介网络论坛发布“帖子”,通常是不需要花费一分钱的,且论坛又具有博客所不能比的互动性,所以这些网络推手们主要选择大型论坛来实施他们的策划方案,如在猫扑、天涯及贴吧等大型BBS发贴。在此环节,web2.0概念并不被网络推手们推崇,某网络推手认为“别看blog被炒的很厉害,BBS才有戏”。“博客的水搞不深,水不够浑,水不够大。在论坛里面,发一条贴,几分钟,十几分钟就有很多回帖,而博客的互动性比较差。”推广方法策划网络推手们需要做的工作是使一个无任何名气的平民依靠网络来“走红”,现在的很多“网络红人”就是他...
查看全文
爬虫两栖类学
相关资料
查看全文
网络包
争议有人对网络包的提法有异议。但"争议"是不明显的。举例CyberdogMozillaSuite和SeaMonkey网景通信家网景浏览器Opera(12.17版本和之前)
查看全文
网络爬虫
命名网络爬虫也可称作网络蜘蛛、蚂蚁、自动索引程序(automaticindexer),或(在FOAF(英语:FOAF(software))软件中)称为网络疾走(webscutter)。概述网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张"待访列表",即所谓"爬行疆域"(crawlfrontier)。此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上的信息,这些档案通常储存,使他们可以被查看。阅读和浏览他们的网站上实时更新的信息,并保存为网站的“快照”。大容量的体积意味着网络爬虫只能在给定时间内下载有限数量的网页,所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者删除。一些被服务器端软件生成的URLs(统一资源定位符)也使得网络爬虫很难避免检索到重复...
查看全文
僵尸网络
用途黑客发送命令开“丧尸”的SOCKS代理用来发送垃圾邮件分布式拒绝服务攻击商业竞争对手的网站等共10种左右的用途危害程度
查看全文
网络爬虫相关标签
万维网
搜索
信息技术