抓取百度百科关键字

根据之前学过的基础知识,现在爬取一些简单的静态页面是不成问题了。百度百科页面爬虫,爬取页面词条并打印。因为每个页面词条是很多的,所以每个页面随机取一个词,不断的往下爬取。总共分为3部,即爬取网页、分析网页数据、输出所需资源。组成本爬虫的关键模块分别是URL管理器、HTML下载器和HTML解析器。

- 阅读全文 -

用 Python 分析微信好友

微信几乎是每天都会打开的一个App,今天就来简单分析一下微信好友的一些基本信息。最终目标是爬取所有微信好友并且分析男女比例、个性签名等数据。看似简单的功能用到的库其实不少。主要用到了itchat、matplotlib、wordcloud、jieba、PIL等库。不得不说Python的库是真的多,不过也确实好用。真的是感谢前辈们的付出。

- 阅读全文 -

爬虫入门(三):掌握常用正则表达式

当获取到页面的内容之后,怎么样提取想要的文字呢?正则表达式就是一个很好用的工具。在很多编程语言里面都有正则表达式的概念。正则表达式比较常见的是对字符串操作,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。除了提取文字外,比较常见的还有判断是不是email,是不是手机号等功能。

- 阅读全文 -

爬虫入门(二):掌握HTTP库requests的基本用法

我们知道,Python内置了urllib等模块用于HTTP请求,然而它的API使用起来并不优雅,于是Requests基于urllib进行了高度封装,使用起来更加简洁、更加人性化。它是Python的一个非常强大的HTTP库。看一下它霸气的介绍Requests is the only Non-GMO HTTP library for Python, safe for human consumption

- 阅读全文 -

爬虫入门(一):快速理解HTTP协议

HTTP协议英文名字为(HyperText Transfer Protoco),是一种用于分布式、协作式和超媒体信息系统的应用层协议。在我们日常上网中,无时无刻不在用这个协议。HTTP是万维网的数据通信的基础。

- 阅读全文 -

最新文章

最近回复

  • imuqibo: Intraoperative qei.vpwy.lzcdev.t...
  • ekenaepic: An oul.fiho.lzcdev.top.pvc.ck wi...
  • exehebo: On gnq.vaom.lzcdev.top.xyw.rx th...
  • abojosin: This ajv.mlqt.lzcdev.top.ylv.wu ...
  • ailaqikiqawa: Broadly bfi.cngm.lzcdev.top.ium....
  • ipedziji: Education nta.yulp.lzcdev.top.ss...
  • ekafaru: Education kxc.yhji.lzcdev.top.kp...
  • vufuvizgirana: The qwq.jlle.lzcdev.top.sov.jk r...
  • qemanataf: Consider rhw.zfou.lzcdev.top.cjf...
  • ujofakadehz: B ojw.byca.lzcdev.top.psf.rp der...

分类

标签

归档

其它