博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫采集 通用正则表达式
阅读量:2391 次
发布时间:2019-05-10

本文共 472 字,大约阅读时间需要 1 分钟。

提取HTML <a>标签 href属性:(?<=href=("|'))[^("|')]*?(?=("|')) 说明:在 herf=("或') 之后,0或多个非("或') 字符但尽可能少,在 ("或') 之前。

提取HTML <a>标签的innerHTML2:(?<=(<a.*?>)).*?(?=</a>)  在java中改为(?<=(<a.{0,500}?>)).*?(?=</a>)

提取HTML <a>标签的innerHTML:(?<=<a[^>]*?>)[^<]*?(?=</a>)
在JDK中报错,{0,200}代替*,改用:(?<=<a[^>]{0,200}?>)[^<]*?(?=</a>)
原因:http://m.blog.csdn.net/LinBilin_/article/details/53393585

提取HTML <title>标签的innerHTML:(?<=<title>).*?(?=</title>) 某某之后,非换行,尽可能少,某某之前

也可以用(?<=<title>)[^<]*?(?=</title>)

你可能感兴趣的文章
Hardening guide for Apache 2.2.15 on RedHat 5.4 (64bit edition)
查看>>
Microsoft Outlook Web Access (OWA) version 8.2.254.0 information disclosure vulnerability
查看>>
STP mitm attack idea
查看>>
Month of PHP Security - Summary
查看>>
近期将要购买的图书
查看>>
nginx Directory Traversal Vulnerability
查看>>
Linux下apache+svn+ssl完美结合搭建安全版本控制平台
查看>>
Nginx 0.8.35 Space Character Remote Source Disclosure
查看>>
showrun的cissp经验谈
查看>>
6月4日要买的书
查看>>
nginx Remote Source Code Disclosure and Denial of Service Vulnerabilities
查看>>
Anti-sec安全培训 部分试看视频
查看>>
FreeBSD kernel NFS client local vulnerabilities
查看>>
JXplorer 的简单使用
查看>>
如何启用 LDAP 签名 Windows Server 2008 中
查看>>
获取ngnix,apache,php,mysql的编译参数 zz from xi4oyu
查看>>
使用ettercap嗅探ssh口令
查看>>
Linux下的内网反弹实例
查看>>
Command execution with a MySQL UDF
查看>>
OTPs: Using s/Key with SSH via OPIE
查看>>