WHCSRL 技术网

【数据分析】⚠️进入数据分析3⚠️美汤提取页面信息

【数据分析】⚠️进入数据分析3⚠️美汤提取页面信息

概览

数据分析可以在我们工作的各个方面为我们提供帮助。本栏目为量化交易栏目下的子栏目,主要讲解数据分析的一些基础知识。

在此处插入图片说明

美丽的汤

Beautiful 是一个 Pyhton 库,可以从 HTML 或 XML 文件中提取数据。简单来说就是可以将HTML标签文件解析成树状结构,然后轻松获取指定标签的对应属性。


安装:

pip install beautifulsoup4
  • 1

示例:

从 bs4 导入 BeautifulSoup

# 创建一段 HTML 代码
html_content = """

<头>
我是小白的博客

<身体>

简介

""" # 生成汤 汤 = BeautifulSoup(html_content, "html.parser") #调试输出 打印(汤。标题)#标题 打印(“名称:”,汤.title.name) 打印(汤。头)#头 打印(“名称:”,汤头。名称) 打印(soup.p)#段落 打印(“名称:”,soup.p.name) 打印(“类:”,汤.p.attrs)
  • 1
  • 2
  • 3
  • 4< /li>
  • 5
  • 6
  • < li style="color: rgb(153, 153, 153);">7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • li> li>
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • li> li>
  • 24
  • 25
  • ul>

输出结果:

我是小白的博客
名称:标题
<头>
我是小白的博客

名称:头

简介

名称:p 类:{'类':['redColor']} 类:['redColor']
  • 1
  • 2
  • 3
  • 4< /li>
  • 5
  • 6
  • < li style="color: rgb(153, 153, 153);">7
  • 8
  • 9
  • 10

提取页面信息

示例:

来自 urllib 导入请求
从 bs4 导入 BeautifulSoup

# 网页
url = "https://iamarookie.blog.csdn.net/"

# 发送请求
响应 = request.urlopen(url)

# 获取内容
html_content = response.read().decode("utf-8")

# 生成汤
汤 = BeautifulSoup(html_content)

# 解析博客名称
blog_name = soup.find("div", attrs={"class":"user-profile-head-name"}).text
打印(“博客名称:
", blog_name)

# 解析博客签名
blog_signature = soup.find("div", attrs={"class":"user-profile-head-introduction"}).text
print("博客签名:
", blog_signature.strip())
  • 1
  • 2
  • 3
  • 4< /li>
  • 5
  • 6
  • < li style="color: rgb(153, 153, 153);">7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • li> li>
  • 18
  • 19
  • 20
  • 21
  • 22

输出结果:

博客名称:
 我是小白,今年2岁
博客签名:
 我的原布来自纽约,四面环山。北斗空,环压低,风吹不坏。擅长读书,滴水穿石,笨鸟先飞,不断求知,方能立。但我希望我们这一代书架上的书永远都是。因为无能为力,默默的做个小白
  • 1
  • 2
  • 3
  • 4< /li>

在此处插入图片说明

推荐阅读