推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

Python爬虫实战:爬取官员官方信息

   日期:2024-12-16     移动:http://dh99988.xhstdz.com/mobile/quote/84737.html

最近导师给了一个任务:用Python爬取中国官员的官方信息,然后将信息中的关键信息(时间地点任务blablabla)抽取出来,绘制他们的关系图。

Python爬虫实战:爬取官员官方信息

千里之行始于足下,我就从Python爬虫开始。

大致分为以下步骤:文本爬取--图片爬取--分词--信息抽取--关系网构建

一. 文本爬取(基于Python3.6):

 


这是我的第一个爬虫程序,在学长的指导下用时5天完成(惭愧啊...)。

之前咨询会爬虫的朋友,他说学爬虫的难点有两个:

1. 分析网址规律

2.提取要抓取的数据


我实践后的感觉是,他说得很对。上手爬虫需要有以下基础:

1.会一些基本的Python编程(事实上,只要略懂一种编程语言就可以,Python可以现学)

2.懂一点HTML的知识。这个我也是现学的,推荐一个很友好的网站:

http://www.w3school.com.cn/

3.正则表达式。这个主要用来提取自己需要的网页上的信息。这里也推荐一个网站:

http://www.runoob.com/regexp/regexp-syntax.html

其实,正则表达式如果用的不多,也可以直接百度寻找答案。


我是用python3.6实现爬虫的,用到了bs4这个库中的Beautiful Soup。通过cmd命令打开anaconda中的scripts文件夹,再输入pip install bs4 即可完成安装。当然,也可以在anaconda的界面中直接安装。

Beautiful Soup的具体用法,可以参考Beautiful Soup 的中文帮助文档:http://beautifulsoup.readthedocs.io/zh_CN/latest/#find

(你问我为啥知道这么多网站,当然是因为我啥都不会,都需要参考啊~~~)


在上面的代码中,我已经进行了详细注释,应该能大致看懂。下面重点解析几个容易出错的部分。

1. User-Agent问题

以下摘自:http://blog.csdn.net/qq_17612199/article/details/51106827

User-Agent是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。用较为普通的一点来说,是一种向访问网站提供你所使用的浏览器类型、操作系统及版本、CPU 类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。

本文地址:http://dh99988.xhstdz.com/quote/84737.html    物流园资讯网 http://dh99988.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号