如何用正则表达式提取网页数据

Question 1

如下图框框所勾选的数据，该如何使用正则表达式去提取数据呢？网址为：https://www.nba.com/stats/player/977/career

提问者试图用如下愚蠢代码来逝逝，不知道我应该在哪些地方改进

from bs4 import BeautifulSoup
import requests
import re
content = requests.get("https://www.nba.com/stats/player/977/career").text
res_tr = r'<td>(.*?)</td>'
m_tr = re.findall(res_tr,content,re.S|re.M)
print(m_tr)

Question 2

该页面通过JS动态填充数据，采用类似Ajax的机制，所以你要抽取的数据并不在页面上，通过浏览 https://www.nba.com/stats/player/977/career 的网页源码就能看出，所以需要先分析页面现实过程中动态访问了哪些数据，看看你想要的数据分布在哪些请求响应里，再对这些请求进行相应的处理

Question 3

看来我还有很多要学，谢谢老师

ChenGuang · Answer 1 · 2023-10-27T13:13:04+0000

该页面通过JS动态填充数据，采用类似Ajax的机制，所以你要抽取的数据并不在页面上，通过浏览 https://www.nba.com/stats/player/977/career 的网页源码就能看出，所以需要先分析页面现实过程中动态访问了哪些数据，看看你想要的数据分布在哪些请求响应里，再对这些请求进行相应的处理

如何用正则表达式提取网页数据

请登录或者注册后回答这个问题。

1个回答

请登录或者注册后再添加评论。

如何用正则表达式提取网页数据

请 登录 或者 注册 后回答这个问题。

1个回答

请 登录 或者 注册 后再添加评论。

请登录或者注册后回答这个问题。

请登录或者注册后再添加评论。