用python获取的网页源码怎么提取中文
答案:2 悬赏:0 手机版
解决时间 2021-02-23 04:53
- 提问者网友:川水往事
- 2021-02-23 00:34
当我获取源码html,type(html)返回,然后我尝试html.decode()时报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb6 in position 275: invalid start byte。。。。。。怎么搞啊,想用re提取源码里的中文,或者怎么把网页已中文的形式保存下来?????
最佳答案
- 五星知识达人网友:行雁书
- 2021-02-23 00:47
不会python以前用VC写过一个 你需要吗? 查看原帖>>
满意请采纳
满意请采纳
全部回答
- 1楼网友:持酒劝斜阳
- 2021-02-23 02:11
审查元素显示的其实就是格式化之后的源代码,你可以用对比一下。 下面是一个python3使用urllib库读取源代码的例子,如果要处理成审查元素那样的格式,需要对
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯