这一段时间一直在做一个网页内容抓取的东西(新闻抓取),到现在基本完成了,由于网站个数不是太多,选用的是一个站点一个模板的方式进行内容的提取。可是模板的方式呢,实现地区比较简单,但是为每个网站添加模板是个很痛苦的事。
最近几天一直在想怎么用通用的方式提取网页信息,我现在有个想法是,由于html中<p></p>标签是用来分段的,那么我把一个网页下载下来然后用正则表达式的取<p></p>标签中内容。如果是单个的<p></p>标签那么判断里面是不是有标点(文章里应该都有标点的吧?),如果的有的话那么就是文章正文。如果<p></p>标签是连续多个的话一般来说直接就可以确定它是文章了,这样就可以把文章提取出来。(刚发现还要网友评论要考虑,晕!怎么除去这类不需要的信息啊!)
还有一个体会是,网页中除了正文中的超连接外,其他的都是可以去除的。
怎么取出一个网页的内容呢?各位有什么想法吗?
如果有人熟悉网页分块提取的话,欢迎给个思路怎么做。
分享到:
相关推荐
抓取和分析网页的类抓取和分析网页的类抓取和分析网页的类抓取和分析网页的类抓取和分析网页的类抓取和分析网页的类
网页FLASH动画抓取器
一个经典的网页爬虫工具,可以用来动态抓取网页!
自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容自动抓取网页内容
本程序编写了一个从网页中抓取信息(如最新的头条新闻,新闻的来源,标题,内容等)的类,而且本程序文件夹中含有word文件,文件将介绍如何使用这个类来抓取网页中需要的信息。文件将以抓取博客园首页的博客标题和...
网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器
一个demo实现简单的比分抓取功能,用户需要根据自己要抓取的网站设置,就可以抓取网页数据!
网页文字抓取器网页文字抓取器
C# 抓取网页内容帮助方法,能投通过标签自动匹配想要输出的内容
java抓取网页数据实现
网页FLASH抓取器 V6.0网页FLASH抓取器 V6.0网页FLASH抓取器 V6.0网页FLASH抓取器 V6.0网页FLASH抓取器 V6.0网页FLASH抓取器 V6.0
java网页抓取数据
比较好用的网页Flash抓取器。原理很简单:所有你使用IE播放的Flash,都会被IE下载在你的系统中进行缓存。这个软件就是在IE的缓存目录寻找.swf结尾的文件。 注意:由于Chrome对Flash缓存时使用了其他的技术,并不会...
用于网页图片抓取工具(GetWebPic)
网页爬虫工具能够抓取网页信息的软件网页爬虫工具[PClawer] V1.1 绿色版 PClawer 是一款定制功能较强的网页抓取工具,需要用到正则表达式,适合高级用户使用
目前绝大多数的网站,仅提供FLASH播放,而不能下载,对于一些自已喜爱的精美FLASH歌曲或游戏,无法做到保存,《网页FALSH抓取器》能非常方便的抓取网页中的FLASH,只要一个FLASH曾在IE浏览器中播放过,它就能保存...
网页Table数据抓取,自动抓取该网页的所有Table数据,形成DataSet供后续使用,支持复杂合并表格。
网页动态Flash抓取器,可以截取网页上的FLASH文件。
网页抓取软件 网页抓取软件 网页抓取软件