ABC Spider
ABC应用数据采集管理平台
ABC Spider是一款应用数据采集集中化管理平台,具备采集任意终端中呈现的互联网开放的 HTML 信息、图片信息、音视频信息、流媒体信息等,结构化数据、半结构化数据、非结构化数据,通过智能解析、图片识别等方式,进行数据清洗与加工,转化为结构化信息数据。
配置化的网络爬虫开发
提供配置化的爬虫开发功能,可对爬虫规则包含的各类信息进行灵活自定义,包括入口地址、分页规则、解析规则、存储等。
灵活化的爬虫任务管理
针对不同的采集目标来源,制定多种采集执行策略,提供灵活的任务管理功能界面。
实时化的爬虫状态监控
对爬虫任务的执行情况进行实时监控,包括采集消耗时长、实时采集进度等,用于灵活、合理的调配采集资源。
业务化的数据整合治理
针对采集数据的质量治理,提供清洗、匹配、加工等数据治理链,实现互联网数据向业务数据的转换。
动态化的采集信息展示
对爬取到的信息进行动态展示,提供源文件查看、原网页查看、爬取内容查看、附件查看等功能,支持原始互联网数据展示及匹配结果展示。
分布式拓展
支持高并发,可扩展,安全且稳定的分布式拓展搭建。