相关动态
零基础爬虫入门(一) | 初识网络爬虫
2024-11-10 18:00

零基础爬虫入门(一) | 初识网络爬虫

  大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—​​​,本意是​​​。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!

​​

  • ​​前言​​
  • ​​一、什么是网络爬虫​​
  • ​​1、爬虫产生的背景​​
  • ​​1.1、万维网的高速发展​​
  • ​​1.2、搜索引擎的需要​​
  • ​​1.3、领域研究的需要​​
  • ​​2、为什么选用Python进行网络爬虫的编写(优点)​​
  • ​​3、爬虫的工作原理​​
  • ​​4、网络爬虫的对象​​
  • ​​5、简单程序理解爬虫的一般步骤​​
  • ​​5.1、爬取网页​​
  • ​​5.2、抽取信息​​
  • ​​5.3、存储信息​​
  • ​​6、网络爬虫的重要性​​
  • ​​二、爬虫的使用范围​​
  • ​​三、爬虫的分类​​
  • ​​1、深度优先爬虫和广度优先爬虫​​
  • ​​2、静态网页爬虫和动态网页爬虫​​
  • ​​3、泛用和主题爬虫​​
  • ​​四、爬虫的基本架构​​

零基础爬虫入门(一) | 初识网络爬虫_搜索


​​

零基础爬虫入门(一) | 初识网络爬虫_数据_02

  大数据背景下,各行各业都需要数据支持,如何在浩瀚的数据中获取自己感兴趣的数据,在数据搜索方面,现在的搜索引擎虽然比刚开始有了很大的进步,但对于一些特殊数据搜索或复杂搜索,还不能很好的完成,利用搜索引擎的数据不能满足需求,网络安全,产品调研,都需要数据支持,而网络上没有现成的数据,需要自己手动去搜索、分析、提炼,格式化为满足需求的数据,而利用网络爬虫能自动完成数据获取,汇总的工作,大大提升了工作效率。因为当今从事科学研究等,需要大量的数据,但是这些数据公开的又非常的少,大量的数据都在大公司的手中。我们这些普通人本身并没有那么多数据,但是我们又需要大量的数据。那么,这时我们就需要用到网络爬虫了。

  网络爬虫(又被称为网页蜘蛛,网络机器人),英文名叫​​​(又称​​),是一种自动浏览网页并采集你所需要的信息的程序,被广泛用于互联网搜索引擎(称为通用爬虫)。随着互联网的发展,爬虫技术不再局限于搜索领域,任何人都可以利用爬虫技术从互联网上获取自己想要的信息,如爬取电子书、商品价格等(称为垂直爬虫)。

零基础爬虫入门(一) | 初识网络爬虫_搜索_03

  • 1. 网页数量增加零基础爬虫入门(一) | 初识网络爬虫_python_04
  • 2. 网页承载的信息量增加零基础爬虫入门(一) | 初识网络爬虫_数据_05
  • 3. 网络的拓扑结构复杂化零基础爬虫入门(一) | 初识网络爬虫_搜索_06
  • 1. 提供充分的搜索服务零基础爬虫入门(一) | 初识网络爬虫_大数据_07
  • 2. 提供精准的搜索结果零基础爬虫入门(一) | 初识网络爬虫_python_08
  • 3. 提供丰富的搜索信息零基础爬虫入门(一) | 初识网络爬虫_大数据_09
  1. 研究网络结构的需要网络关系
  2. 研究语言的需要语料材料
  3. 研究用户行为的需要用户资料
  1. 语言简洁,简单易学,使用起来得心应手,编写一个良好的​​​程序就感觉像是在用英语写文章一样,尽管这个英语的要求非常严格!​​的这种伪代码本质是它最大的优点之一。它使你能够专注于解决问题而不是去搞明白语言本身。
  2. 使用方便,不需要笨重的​​​, ​​​只需要一个​​或者是一个文本编辑器,就可以进行大部分中小型应用的开发了。
  3. 功能强大的爬虫框架​​​,​​是一个为了爬取网站数据,提取构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
  4. 强大的网络支持库以及​​​解析器,利用网络支持库​​​,编写较少的代码,就可以下载网页。利用网页解析库​​​,​​登可以方便的解析网页各个标签,再结合正则表达式,方便的抓取网页中的内容。
  5. 十分擅长做文本处理字符串处理:​​包含了常用的文本处理函数,支持正则表达式,可以方便的处理文本内容。

  网络爬虫是一个自动获取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。爬虫的工作原理,爬虫一般从一个或者多个初始​​​开始,下载网页内容,然后通过搜索或是内容匹配手段(比如正则表达式),获取网页中感兴趣的内容,同时不断从当前页面提取新的​​​,根据网页抓取策略,按一定的顺序放入待抓取​​队列中,整个过程循环执行,一直到满足系统相应的停止条件,然后对这些被抓取的数据进行清洗,整理,并建立索引,存入数据库或文件中,最后根据查询需要,从数据库或文件中提取相应的数据,以文本或图表的方式显示出来。

  • 1. 网站website

  • 新闻类网站零基础爬虫入门(一) | 初识网络爬虫_html_10

  • 社交类网站零基础爬虫入门(一) | 初识网络爬虫_html_11

  • 购物类网站零基础爬虫入门(一) | 初识网络爬虫_数据_12

  • 所有你想爬的网站

  • 2. API

  • 天气类API零基础爬虫入门(一) | 初识网络爬虫_大数据_13

  • 微博类API零基础爬虫入门(一) | 初识网络爬虫_搜索_14

  • 只要你能被认证的API

  • 3. 流量数据

  • 弹幕零基础爬虫入门(一) | 初识网络爬虫_数据_15

  • 只要有弹幕的地方

按照一定的规则,自动地抓取万维网信息地程序或者脚本

  • 1. 测试代码
  • 2. 运行结果(先获取出来整个网页的所有内容)零基础爬虫入门(一) | 初识网络爬虫_数据_16

部分或全部抽取抓取到的信息,使数据进一步结构化

  • 1. 代码
  • 2. 运行结果零基础爬虫入门(一) | 初识网络爬虫_大数据_17

将获取到的信息保存到文件或数据库中

  • 1. 代码
  • 2. 结果零基础爬虫入门(一) | 初识网络爬虫_搜索_18
  • 1. 从工业角度看 1.数据驱动大量数据来源于网络爬虫 2.爬虫的效率决定信息更迭的速度 3.爬虫的准确性决定了服务的准确度

  • 2. 从研究角度看 1.研究领域需要干净的数据 2.研究领域需要不花钱的数据 3.几乎所有社交网络研究的benchmark数据都来自爬虫

  • 3. 可在工业领域独当一面 1.有数据的地方都有爬虫 2.爬虫是一个闭环的独立工程 3.所有的数据分析都是由爬虫开始

  • 4. 可自己做研究 1.自己收集数据 2.自己清理数据 3.自己运算算法 4.自己搞研究

​​

​​​零基础爬虫入门(一) | 初识网络爬虫_搜索_19

零基础爬虫入门(一) | 初识网络爬虫_python_20

  • 是数据产生二次价值的第一步
  • 数据分析师的必备技能
  • 网站测试者的好伙伴

​​

  • 1. 深度优先爬虫

  深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续追踪链接。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独地一条链。

  • 2. 广度优先爬虫

  广度优先,有人也叫宽度优先,是指将新下载网页发现地链接直接插入到待抓取URL队列的末尾,也就是指网络爬虫会先抓取起始页中的所有网页,然后在选择其中的一个连接网页,继续徐抓取在此网页中链接的所有网页。

零基础爬虫入门(一) | 初识网络爬虫_数据_21

  • 1. 静态网页爬虫

  面向网页读取过程中就完成加载的网页,此类网页的主要信息会在网页加载过程中直接显示在页面上,比如一些新闻网站和比较老的网站。面向静态网页的爬虫页面逻辑比较简单,几行代码就可以完成爬取。

​​​零基础爬虫入门(一) | 初识网络爬虫_大数据_22

  • 2. 动态网页爬虫

  1.网页读取过程中需要依赖额外的加载过程,比如或者jQuery,使用静态网页的爬取方法可能获取不到数据,需要模拟动态加载过程。

  2.网页登录过程分页,需要模拟下拉、点击等操作才能加载剩余数据

  3.需要登录

​​​零基础爬虫入门(一) | 初识网络爬虫_python_23

  • 1.泛用爬虫

  普通的没有策略和着重爬取的爬虫,由于可能会爬取一些无用的数据,效率比较低

  • 2.主题爬虫

  指选择性地爬取那些于预先定义好地主题相关页面地网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关地页面,极大地节省了硬件和网络资源,保存地页面也由于数量少而更新块,还可以很好地满足一些特定人群对特定领域信息的需求。

  • 网络爬虫的基本架构

零基础爬虫入门(一) | 初识网络爬虫_数据_24

需要和实现有一部分我们需要用到辅助模块。

  • 爬虫的爬取过程:

零基础爬虫入门(一) | 初识网络爬虫_数据_25

  • 爬虫的爬取过程解析:

①爬取模块——从万维网上获取数据

  • 从一个URL开始批量的获取数据
  • 将数据从互联网的海量信息中拉取到爬虫系统中进行处理

②抽取模块——处理获取的数据抽取指定的信息

  • 抽取URL加入队列,使程序持久化
  • 将原本被HTML、XML、JSON结构化的数据进一步结构化,方便数据库存储

③数据存储模块——将抽取的信息存入指定格式的载体

  • 将抽取的信息存入txt、csv、数据库等常见的数据存储中
  • 为爬虫提供数据索引,使得爬虫队列可以通过读取数据存储的方式控制爬虫运转

④辅助模块——持久化、队列与多线程

  1. 持久化 使爬虫可以尽可能长时间稳定运转 控制爬取速度,合理规避简单反爬规则
  2. 队列 控制爬虫爬取的顺序,实现深度或广度优先策略 承载URL,提供去冲、排序等操作
  3. 多线程 提高爬虫效率

零基础爬虫入门(一) | 初识网络爬虫_python_26

美好的日子总是短暂的,虽然还想继续与大家畅谈,但是本篇博文到此已经结束了,如果还嫌不够过瘾,不用担心,我们下篇见!


零基础爬虫入门(一) | 初识网络爬虫_python_27

  好书不厌读百回,熟读课思子自知。而我想要成为全场最靓的仔,就必须坚持通过学习来获取更多知识,用知识改变命运,用博客见证成长,用行动证明我在努力。   如果我的博客对你有帮助、如果你喜欢我的博客内容,请​​​​一键三连哦!听说点赞的人运气不会太差,每一天都会元气满满呦!如果实在要白嫖的话,那祝你开心每一天,欢迎常来我博客看看。   码字不易,大家的支持就是我坚持下去的动力。点赞后不要忘了​​​我哦!

零基础爬虫入门(一) | 初识网络爬虫_搜索_28

零基础爬虫入门(一) | 初识网络爬虫_搜索_29

    以上就是本篇文章【零基础爬虫入门(一) | 初识网络爬虫】的全部内容了,欢迎阅览 ! 文章地址:http://dh99988.xhstdz.com/news/4171.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dh99988.xhstdz.com/mobile/ , 查看更多   
最新文章
AI智能写作助手:一站式文案创作与优化解决方案,覆多种场景需求
1. 文案生成器是一款利用先进的人工智能技术帮助客户快速生成创意文案的工具。它免费采用可以按照使用者输入的关键词或主题,自
07 高性能系统架构设计
本课时讲解大家常听到的高性能系统架构。 高性能系统架构,主要包括两部分内容,性能测试与性能优化。性能优化又可
百度营销黑帽seo【百度seo营销公司】
在当今数字化的时代,搜索引擎优化(SEO)已经成为了企业网站推广的重要手段,百度作为中国(黑帽seo)的搜索引擎,拥有庞大的用户
1000亿美元!微软与OpenAI的“AI超级霸权”野心
财联社及科创板日报旗下产品——未来已来,AI前沿,独家、深度、专业!
Wordpress哪个主题对SEO和页面速度友好,谷歌排名高?
在我多年的网站建设与优化实践中,我发现选择一个合适的WordPress主题对于网站的SEO表现和页面速度至关重要。特别是在谷歌这样的
'智能AI文案助手:一键快速生成创意内容的软件工具'
随着人工智能技术的不断发展在各个领域的应用日益广泛。在内容创作领域一键生成文案的软件逐渐崭露头角成为众多创意工作者的得力
Rank Math新手教程指南:最佳Wordpress排名插件2024
Rank Math是一款功能强大的WordPress SEO插件,旨在帮助网站管理员和博主优化他们的网站以提高在搜索引擎中的排名。它提供了全面
数字艺术革命:3D虚拟展览,为艺术爱好者打开新世界
nbsp;nbsp;nbsp;nbsp;便利性:无界限的艺术探索,3D虚拟艺术展览通过高质量的3D扫描技术,将实体艺术品转化为
AI智能营销领域的卓越引领者
作为 AI 智能营销业务的先锋企业,专注于为客户打造智能化的营销解决方案,助力其在激烈的市场竞争中脱颖而出。我们的核心优势在
相关文章