爬虫入门(三):掌握常用正则表达式

当获取到页面的内容之后,怎么样提取想要的文字呢?正则表达式就是一个很好用的工具。在很多编程语言里面都有正则表达式的概念。正则表达式比较常见的是对字符串操作,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。除了提取文字外,比较常见的还有判断是不是email,是不是手机号等功能。

- 阅读全文 -

爬虫入门(二):掌握HTTP库requests的基本用法

我们知道,Python内置了urllib等模块用于HTTP请求,然而它的API使用起来并不优雅,于是Requests基于urllib进行了高度封装,使用起来更加简洁、更加人性化。它是Python的一个非常强大的HTTP库。看一下它霸气的介绍Requests is the only Non-GMO HTTP library for Python, safe for human consumption

- 阅读全文 -

最新文章

最近回复

  • imuqibo: Intraoperative qei.vpwy.lzcdev.t...
  • ekenaepic: An oul.fiho.lzcdev.top.pvc.ck wi...
  • exehebo: On gnq.vaom.lzcdev.top.xyw.rx th...
  • abojosin: This ajv.mlqt.lzcdev.top.ylv.wu ...
  • ailaqikiqawa: Broadly bfi.cngm.lzcdev.top.ium....
  • ipedziji: Education nta.yulp.lzcdev.top.ss...
  • ekafaru: Education kxc.yhji.lzcdev.top.kp...
  • vufuvizgirana: The qwq.jlle.lzcdev.top.sov.jk r...
  • qemanataf: Consider rhw.zfou.lzcdev.top.cjf...
  • ujofakadehz: B ojw.byca.lzcdev.top.psf.rp der...

分类

标签

归档

其它