排行榜ABC

当前位置:排行榜ABC > 行业综合榜 > 正文

返回顶部

WebMagic

时间:2024/9/16 15:08:34 15200票数:31投他一票#日剧#

WebMagic是一个开源的Java垂直爬虫框架,核心简单但涵盖爬虫的全部流程,灵活而强大,适合爬虫入门学习。WebMagic无需配置,只用少量代码即可实现一个爬虫,其组件PageProcessor、Scheduler、Downloader和Pipeline,对应爬虫生命周期中的处理、管理、下载和持久化等功能。其特色之处在于完全模块化设计,拥有强大的可扩展性;支持多线程;支持分布式;支持爬取js动态渲染的页面等。

  • 外文名称: WebMagic
详细介绍

基本介绍

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

产品设计

webmagic包含页面抽取功能,开发者可以使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。

特色功能

webmagic主要包括两个包:

webmagic-core

webmagic核心部分,只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。

webmagic-extension

webmagic的扩展模块,提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。

webmagic还包含两个可用的扩展包,因为这两个包都依赖了比较重量级的工具,所以从主要包中抽离出来,这些包需要下载源码后自己编译:

webmagic-saxon

webmagic与Saxon结合的模块。Saxon是一个XPath、XSLT的解析工具,webmagic依赖Saxon来进行XPath2.0语法解析支持。

webmagic-selenium

webmagic与Selenium结合的模块。Selenium是一个模拟浏览器进行页面渲染的工具,webmagic依赖Selenium进行动态页面的抓取。

在项目中,你可以根据需要依赖不同的包。

不使用maven

在项目的lib目录下,有依赖的所有jar包,直接在IDE里import即可。

本百科内容由用户我心明亮整理上传,当前页面所展示的词条介绍涉及宣传内容属于注册用户个人编辑行为,与【WebMagic】的所属企业/所有人/主体无关,网站不完全保证内容信息的准确性、真实性,也不代表本站立场。内容仅为介绍词条基本情况,想要了解更多请到官方平台。若该内容有影响到您的权益请联系我们,我们将在第一时间处理,runfei999@163.com

以上手机版 WebMagic 小编为您整理WebMagic的全部内容
更多相关词条

更多>>

点击查看 行业综合榜 更多内容