全线产品

i-Get互联网爬虫系统

i-Get互联网爬虫系统是一款专业的网络数据采集/信息挖掘处理系统,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台、各种应用系统,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。功能上支持采集需要登录查看的内容,支持探测文件真实地址并下载远程文件,支持代理采集,支持采集数据直接入库等许多功能特点。同时又具有无限级网址采集、无限级多页和分页规则采集、多语言、多编码支持、支持下载源权重设置、广告排除、垃圾信息排除、URL排重、正文排重等功能。可以完成您在浏览器内能看到的各类信息的提取。强大的接口支持,让您可以通过二次开发实现您对数据的萃取要求、定时任务及分布式采集端又能保证您对数据的及时性及数据量的要求。 
 
 

 

功能说明


1.支持90%以上互联网信息采集

覆盖媒体范围包括:新闻、论坛、新闻评论、论坛回帖、博客、微博、搜索引擎、WAP网站、电子版的报媒、杂志等国内大部分的主流媒体及国外相关媒体。


 
2.动态网页信息采集

支持主流动态脚本技术PERL、ASP、PHP和JSP站点动态的页面内容的抓取,同时系统具有避免“搜索机器人陷阱(spider traps)”的脚本错误的机制。


 
3.新站点发现

快速及时地发现新的数据源,支持新站点的下载策略,快速实现对新站点的网页覆盖率。


 
4. 镜像网页识别

网络中,镜像网页现象严重。75%的网页是以镜像、转载方式存在。识别镜像网站,避免对镜像网站的页面下载,能够有效提高下载效率,节省下载带宽.


 
5.网站权重设置

采集系统是带宽敏感性应用,带宽是系统性能主要瓶颈。系统可对灵活配置网站、网页下载权重和优先级,从而为重点站点、重要网页提供更快的更新频率和更充足的带宽。


 
6.网站模板自动识别

无需每个网站制作复杂的模板,匹配下载格式,系统自带云模板库及网站分析工具,自动识别网站内容进行下载,准确率高达80%以上。


 
7.增量下载模式

由于带宽限制,我们采用增量学习的方法选进行下载,借助现有的关键词库,以及系统下载日志,可以有效自动增量下载,尽可能减少下载的量,同时保证覆盖率。


 
8. 统一多编码方式

对中文信息来讲,主要有GB、BIG5和UTF8(UNICODE)、GBK等几种格式;而对于其他语种则有更多的编码格式如:UNICODE、UUENCODE、BASE64、Quoted Printable等,可以实现对以上多种编码格式的支持。
 

9. 先进的下载排重技术

Spider在网际“爬动”时,会找到大量的重复信息。i-Get会对信息源进行URL排重、标题排重、正文排重的三重排重,可以避免下载大量的重复信息,不仅节省了系统资源,同时也可以节省大量的网络带宽,从而大大提高信息采集服务质量。

 
10.下载出错预警

i-Get具备服务器内存监控、带宽监控、下载日志统计、下载源出错邮件预警等机制,保障下载信息的连续性。


 
11.云模板库

系统提供上万的模板库供下载系统调用,80%以上网站无需定制模板。

 
 

 

服务方式


系统采用独立部署和数据推送两种方式提供服务。
 
独立部署:
a) 需提供充足的带宽,1台或多台下载机,下载源可自行配制无功能限制。
 
数据推送:
b) 可根据网站、关键字、媒体类型、频道等多种分类方式,将迅奥数据中心数据定时、定期推送至客户端,推送格式可定制。
 

服务优势


a) 可享受全网数据,数据更全面。
b) 服务更稳定、性能更优。
c) 与独立部署系统,可随时增删监控源。
d) 提供7x24小时人工服务