永发信息网

使用perl如何从HTML页面中抽取内容

答案:2  悬赏:50  手机版
解决时间 2021-03-16 09:02
问题如下:
有如下内容的HTML页面
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta name="description" content="XXXXX">
<meta name="keywords" content="XXX">
<title>XXXX</title>
<LINK href="../../images/stlye_2005.css" type=text/css rel=stylesheet>
<SCRIPT language=JavaScript src="../../images/search.js">
</SCRIPT>

</head>

<body>
<!--文档列表-->
<xml id="DocumentsDataSrc">
<?xml version="1.0"?>
<RECS>
<Documents>

<D>
<T><![CDATA[AAAAA]]></T>
<L><![CDATA[BBBBB]]></L>
<Time><![CDATA[CCCCC]]></Time>
<App><![CDATA[]]></App>
</D>

<D>
<T><![CDATA[AAAAA]]></T>
<L><![CDATA[BBBBB]]></L>
<Time><![CDATA[CCCCC]]></Time>
<App><![CDATA[]]></App>
</D>
……

</Documents>
</RECS>
</xml>
现在需要使用Perl从中单独抽取AAAAA,BBBBB,CCCCC各项的内容形成新的HTML页面;

谢谢,我知道是用正则,但是不太会写控制结构,主要是对新生成的页面有小于5条数目以及按时间排序的要求;而且楼下的,你回答的正则也取不出相应数据来,关于要用到的正则我已经找到了是:my @a = $xml =~ /<T><!\[CDATA\[(.*?)\]\]><\/T>/sig;
还是急求相应的实现过程;谢谢!
最佳答案
使用正则获取
$html =~ /<T><!\[CDATA\[(.*)\]\]><\/T>/)
$aaaa = $1;#AAAA

写好控制结构可以把其他的都获取出来。
全部回答
你好! 为何不把xml那一段截出来,直接用xml的东西来处理呢? 如有疑问,请追问。
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
头发被剪的好丑怎么办
1979年阴历10月初4,阳历是几月几日日
手指和手掌上起了角质疙瘩中心有小红点
最近经常看到“点将啦”的美工,请问美工是做
嵩博花园(东北门)我想知道这个在什么地方
多选题将二氧化碳通入足量的下列液体中,不能
惠州到广州长隆怎么去,
武后园地址在什么地方,想过去办事
雅迪电动车座垫下的开关不小心关上了怎么办
襄城区襄樊佳美佳地址在哪里啊
手机qq聊天记录怎么导出到电脑里
根植于内心的善良
双子座为什么富豪比较多
松山冲屋地址在哪,我要去那里办事
35平方铝线,三相四线,线路长度1000米,日用
推荐资讯
中南大学机械制造及其自动化考研科目是什么?
我想上传公司制作产品的过程到优酷,可是审核
牛仔裙配什么毛衣好看
广东哪两所非211大学仅次于广东的四所211?
诺基亚(NOKIA) XL 4G (RM-1061) 黑色 移动4G
求公关语言艺术课的说服信,急,急!!!
48x28 +56x26用简便计算公式 - 百度
梦见拿勺子狠狠的敲打小孩的额头
去年今日此门中映日荷花别样红歌词
现代伊兰特怎么更换保险丝
狗狗关在狗笼养脚掰了是什么原因
时尚客牛排在什么地方啊,我要过去处理事情
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?