`
liu208286
  • 浏览: 16916 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

讨论网页文章通用抓取方法

    博客分类:
  • Java
阅读更多

     这一段时间一直在做一个网页内容抓取的东西(新闻抓取),到现在基本完成了,由于网站个数不是太多,选用的是一个站点一个模板的方式进行内容的提取。可是模板的方式呢,实现地区比较简单,但是为每个网站添加模板是个很痛苦的事。


      最近几天一直在想怎么用通用的方式提取网页信息,我现在有个想法是,由于html中<p></p>标签是用来分段的,那么我把一个网页下载下来然后用正则表达式的取<p></p>标签中内容。如果是单个的<p></p>标签那么判断里面是不是有标点(文章里应该都有标点的吧?),如果的有的话那么就是文章正文。如果<p></p>标签是连续多个的话一般来说直接就可以确定它是文章了,这样就可以把文章提取出来。(刚发现还要网友评论要考虑,晕!怎么除去这类不需要的信息啊!)

 

      还有一个体会是,网页中除了正文中的超连接外,其他的都是可以去除的。

 

 

     怎么取出一个网页的内容呢?各位有什么想法吗?

 

       如果有人熟悉网页分块提取的话,欢迎给个思路怎么做。

1
1
分享到:
评论
5 楼 liu208286 2008-11-19  
flyinweb 写道

你需要《基于视觉网页块分析技术的正文抽取》
vips

谢啦,下来在看了,不知道能看的懂吗?
4 楼 fuliang 2008-11-18  
Wrapper就是做这件事情的,现在有许多讨论抽取网页中结构化数据论文可以参考。
3 楼 tanleihaoren 2008-11-18  
使用htmlparser或者正则吧!个人感觉正则好一些。
2 楼 flyinweb 2008-11-16  
你需要《基于视觉网页块分析技术的正文抽取》
vips
1 楼 playfish 2008-11-15  
抓取简单,找个html解析的类库,比如Jericho,使用它提供的一些api来解析。

将javaeye这样的文章正文,只要一句代码就能获得到了。

相关推荐

Global site tag (gtag.js) - Google Analytics