最近在学习爬虫相关的知识,网页中有多个这样的结构:
随便写点什么
什么味道
。。。
我的目的是最后获取到div中的中文字符,我使用divs = BeautifulSoup的findAll('content')方法,将多个这样结构的字符存入了列表divs中,然后计划遍历列表divs,使用divs[i].string方法获取到其中的中文字符 “随便写点什么
什么味道”
运行时发现,如果字符中含有
的话,使用divs[i].string方法的话就返回None。
上网上查了查,解决思路是把'
'替换成'\n',但是如果先把divs[i]转车字符串,再替换的话,还得需要使用正则表达式去除掉“”标签才行,这样也挺麻烦的,还有什么其他好的方式吗?
我查了查BeautifulSoup中的replaceWith方法,貌似只能替换整个标签或者是string。。。
还是说我理解的有错误?麻烦高手帮忙解答下吧,谢谢!
补充下,我能正常获取到:
随便写点什么
什么味道
。。。
这部分内容,但是不能获取其中的中文字符;而其他没有带
的div段,是可以正常获取其中的汉字字符的
python使用BeautifulSoup解析html出现的问题
答案:1 悬赏:0 手机版
解决时间 2021-03-22 03:27
- 提问者网友:抽煙菂渘情少年
- 2021-03-21 05:03
最佳答案
- 五星知识达人网友:酒醒三更
- 2021-03-21 05:23
用这两个参数:findAll('div',{'class':'content'})
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯