基本介绍
webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
产品设计
webmagic包含页面抽取功能,开发者可以使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。
特色功能
webmagic主要包括两个包:
webmagic-core
webmagic核心部分,只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。
webmagic-extension
webmagic的扩展模块,提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。
webmagic还包含两个可用的扩展包,因为这两个包都依赖了比较重量级的工具,所以从主要包中抽离出来,这些包需要下载源码后自己编译:
webmagic-saxon
webmagic与Saxon结合的模块。Saxon是一个XPath、XSLT的解析工具,webmagic依赖Saxon来进行XPath2.0语法解析支持。
webmagic-selenium
webmagic与Selenium结合的模块。Selenium是一个模拟浏览器进行页面渲染的工具,webmagic依赖Selenium进行动态页面的抓取。
在项目中,你可以根据需要依赖不同的包。
不使用maven
在项目的lib目录下,有依赖的所有jar包,直接在IDE里import即可。
本百科内容由用户我心明亮整理上传,当前页面所展示的词条介绍涉及宣传内容属于注册用户个人编辑行为,与【WebMagic】的所属企业/所有人/主体无关,网站不完全保证内容信息的准确性、真实性,也不代表本站立场。内容仅为介绍词条基本情况,想要了解更多请到官方平台。若该内容有影响到您的权益请联系我们,我们将在第一时间处理,runfei999@163.com