爱学习,爱生活,会学习,会生活,人生有百学网更精彩!
爱学习 | 爱生活

一文快速学会 Python 基础爬虫

发布于:百学网 2020-12-10

一文快速学会 Python 基础爬虫

  前言

  刚学完python基础,想学习爬虫的新手,这里有你想要的东西。

  本文着重点在于教新手如何学习爬虫,并且会以外行人的思维进行形象地讲解。最近我一兄弟想学,我就想写个教学给他,然后想不如分享到网络上,给热爱学习的人们一起学习探讨。

  图片

  环境安装

  python3.7.1

  pip install requests

  pip install beautifulsoup4

  pip install lxml

  技术讲解

  requests库

  requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。

  在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。

  更专业,更详细的解释,自己去百度学习吧。

  如何使用requests库来模拟浏览器的行为来获取页面内容呢?

  示例代码如下

  import requests

  web = requests.get('https://baidu.com') #向百度发起一次get请求,返回请求结果的实体类

  print(web.status_code) #请求返回的状态码,200是OK,404是页面不存在,500是错误,更多自己百度搜索

  print(type(web.content)) #页面内容的数据类型是bytes,因此需要解码

  print(type(web.content.decode()))

  print(web.content.decode()) #解码之后,得到的页面内容是结构化的字符串

  这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。

  html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。

  html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。

  其基本格式就是

  <html>

  <head>...</head>

  <body>...<body>

  <script>...</script>

  <style>...</style>

  </html>

  html文本的标签一般都是成双成对,有始有终的,比如<body>和</body>是一队,千万不能拆散,拆散就乱套了。少数除外比如<br>是换行用的,可以不用配对。

  这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等

  在test.html里我们写入一下代码并且保存。

  <html>

  <body>

  <h1>我的网站</h1>

  <p>这是我的网站</p>

  </body>

  </html>

  beautifulsoup4库

  bs4(简称)库是用于解析格式化文本,提取数据用的库。

  我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。

  解析的示例代码如下

  from bs4 import BeautifulSoup

  html = '''<html>

  <body>

  <h1>我的网站</h1>

  <p>这是我的网站</p>

  <body>

  </html>''' #从网页拿到html的格式化的字符串,保存到html里

  soup = BeautifulSoup(html, 'lxml') #使用lxml解析器来解析文本,html和xml格式是类似的

  print(soup.find_all('h1')) #使用find_all函数来找所有的h1标签,返回的结果是数组

  print(soup.find_all('p')) #找所有的p标签,返回的结果是数组

  更复杂一点的,比如

  from bs4 import BeautifulSoup

  html = '''<html>

  <body>

  <h1>我的网站</h1>

  <p>这是我的网站</p>

  <div class='test-item'>

  测试1

  </div>

  <div class='test-item'>

  测试2

  </div>

  <body>

  </html>'''

  soup = BeautifulSoup(html, 'lxml')

  div_tags = soup.find_all(name='div', attrs={'class': 'test-item'})

  for tag in div_tags:

  print(type(tag))

  print(tag)

  print(tag.string)

  print(tag.attrs, '\n')

  注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。

  总结

  本文主要讲了如何使用requests获取网页文本内容,以及如何解析html文本,更多更好用的爬虫库。

本站(www.100xue.net)部分图文转自网络,刊登本文仅为传播信息之用,绝不代表赞同其观点或担保其真实性。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系(底部邮箱),我们将及时更正、删除,谢谢

- END -
  • 相关文章

孩子学编程为什么选择Python

Python是什么? Python 是一种跨平台的计算机程序设计语言,越来越多被用于独立的、大型项目的开发。 Python 的语言方式与自然语言较为接近并且语法也比较简洁。它相对于其他语言,更加易学、易读、可移植、可扩展、可嵌入,非常适合快速开发,可阅读性很高,...
2023-06-16

【周末学习】Python测试开发培训班

思考:你的测试职业发展之路在哪里? (文末揭晓) 01 PART 课程优势 为什么选择我们? 让我们先来看一组数据,经过大数据统计,我们的学员努力和涨幅成正比: 1) 代码实践 3 万+代码行的同学,通常情况下换工作后月薪涨幅 10k+ 2) 代码实践 2-3 万代码行的同学...
2023-06-16

100个Python算法实例

常言道算法才是编程的灵魂,不管是java,python还是PHP,都跨不过算法这个门槛。算法确实不好学,但算法也是真必要,各大公司为了筛选人才,面试程序员的时候多多少少都会考察你的算法能力。 学习算法无非这几种目的: 学习基本编程语法和思想 想找大厂工作,...
2023-06-12

python中如何比较两个列表?

今天这篇文章主要介绍python中列表的几种不同的比较方式,对两个列表的比较在平常用的是非常多的,例如你处理的数据放到了列表中,间隔一段时间又获取到了新的数据,这个时候可以通过对比来确定是否有新数据产生,最近我在工作中就遇到了要将两个列表对比的...
2022-08-12

Python 字典 get()方法

首先,我们先说用法: get(key, value)方法接受两个参数分别是key,和value, 其中key就是指字典的key,这个参数是必须的, value是给定的一个值,这个参数不是必须的,只有给定的key不在这个字典中,也就是说获取不到字典的值的时候,value这个值将被返回,...
2022-08-10

python中可变对象和不可变对象

我们都知道在python中一起都是对象,在这个基础上,python语言还区分了可变对象和不可变对象,不可变对象有包括int, float, bool, str,可变对象包括字典(dict), 集合(set), 元组(tuple), 列表(list),对于初学者而言,可变对象和不可变对象有什么区别,可能...
2022-07-28