问题如下:
有如下内容的HTML页面
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta name="description" content="XXXXX">
<meta name="keywords" content="XXX">
<title>XXXX</title>
<LINK href="../../images/stlye_2005.css" type=text/css rel=stylesheet>
<SCRIPT language=JavaScript src="../../images/search.js">
</SCRIPT>
</head>
<body>
<!--文档列表-->
<xml id="DocumentsDataSrc">
<?xml version="1.0"?>
<RECS>
<Documents>
<D>
<T><![CDATA[AAAAA]]></T>
<L><![CDATA[BBBBB]]></L>
<Time><![CDATA[CCCCC]]></Time>
<App><![CDATA[]]></App>
</D>
<D>
<T><![CDATA[AAAAA]]></T>
<L><![CDATA[BBBBB]]></L>
<Time><![CDATA[CCCCC]]></Time>
<App><![CDATA[]]></App>
</D>
……
</Documents>
</RECS>
</xml>
现在需要使用Perl从中单独抽取AAAAA,BBBBB,CCCCC各项的内容形成新的HTML页面;
谢谢,我知道是用正则,但是不太会写控制结构,主要是对新生成的页面有小于5条数目以及按时间排序的要求;而且楼下的,你回答的正则也取不出相应数据来,关于要用到的正则我已经找到了是:my @a = $xml =~ /<T><!\[CDATA\[(.*?)\]\]><\/T>/sig;
还是急求相应的实现过程;谢谢!
使用perl如何从HTML页面中抽取内容
答案:2 悬赏:50 手机版
解决时间 2021-03-16 09:02
- 提问者网友:十年饮冰
- 2021-03-15 13:11
最佳答案
- 五星知识达人网友:玩家
- 2021-03-15 13:32
使用正则获取
$html =~ /<T><!\[CDATA\[(.*)\]\]><\/T>/)
$aaaa = $1;#AAAA
写好控制结构可以把其他的都获取出来。
$html =~ /<T><!\[CDATA\[(.*)\]\]><\/T>/)
$aaaa = $1;#AAAA
写好控制结构可以把其他的都获取出来。
全部回答
- 1楼网友:逃夭
- 2021-03-15 14:08
你好!
为何不把xml那一段截出来,直接用xml的东西来处理呢?
如有疑问,请追问。
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯