python使用BeautifulSoup解析html出现的问题

答案:1 悬赏:0 手机版

解决时间 2021-03-22 03:27

提问者网友：抽煙菂渘情少年
2021-03-21 05:03

最近在学习爬虫相关的知识，网页中有多个这样的结构：

随便写点什么
什么味道
。。。

我的目的是最后获取到div中的中文字符，我使用divs = BeautifulSoup的findAll('content')方法，将多个这样结构的字符存入了列表divs中，然后计划遍历列表divs，使用divs[i].string方法获取到其中的中文字符 “随便写点什么
什么味道”
运行时发现，如果字符中含有
的话，使用divs[i].string方法的话就返回None。
上网上查了查，解决思路是把'
'替换成'\n'，但是如果先把divs[i]转车字符串，再替换的话，还得需要使用正则表达式去除掉“”标签才行，这样也挺麻烦的，还有什么其他好的方式吗？
我查了查BeautifulSoup中的replaceWith方法，貌似只能替换整个标签或者是string。。。
还是说我理解的有错误？麻烦高手帮忙解答下吧，谢谢！

补充下，我能正常获取到：

随便写点什么
什么味道
。。。

这部分内容，但是不能获取其中的中文字符；而其他没有带
的div段，是可以正常获取其中的汉字字符的

最佳答案

五星知识达人网友：酒醒三更
2021-03-21 05:23

用这两个参数：findAll('div',{'class':'content'})

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！