HTML中的HTML Scraping

HTML Scraping in Php

本问题已经有最佳答案,请猛点这里访问。

我一直在用正则表达式在PHP中做一些HTML抓取。这是可行的,但结果是脆弱和脆弱的。有人使用过提供更强大解决方案的软件包吗?配置驱动的解决方案是理想的,但我并不挑剔。


我建议在您从页面中抓取HTML之后,使用PHP简单的HTML DOM解析器。它支持无效的HTML,并提供了处理HTML元素的非常简单的方法。


我还推荐"简单的HTML DOM解析器"。这是一个很好的选择,特别是如果您熟悉jquery或javascript选择器,那么您会发现自己在家里。

我以前甚至写过博客。


我在使用HTMLSQL时有一些乐趣,这不是一个高端解决方案,但非常简单。


如果您正在抓取的页面是有效的x(ht)ml,那么PHP的任何内置XML解析器都可以。

我在使用PHP库进行抓取方面没有太大的成功。如果你有冒险精神,你可以试试简单的。我推荐红宝石版的hpricot,或者Python版的靓汤,这两个版本都是优秀的HTML解析器。


虽然我个人使用curl+regexp,但我推荐使用php进行HTML刮削,curl+regexp或curl+some dom解析器。如果你对regexp有深刻的品味,那么有时候它实际上更准确。


我不得不在我的主人1和1上使用卷发。

http://www.quickcrape.com/是我用简单的dom类想到的!


我对上面提到的简单的HTMLDOM解析器也有很好的理解。另外还有一个PHP的整洁扩展,它也很好地工作。