政府宣传类产品
安全类产品
融媒体类产品
城市大脑类产品
大数据企业大脑类
大数据工具类产品
API接口
大数据数据采集系统

功能说明
覆盖媒体范围包括:新闻、论坛、新闻评论、论坛回帖、博客、微博、搜索引擎、WAP网站、电子版的报媒、杂志等国内大部分的主流媒体及国外相关媒体。
支持主流动态脚本技术PERL、ASP、PHP和JSP站点动态的页面内容的抓取,同时系统具有避免“搜索机器人陷阱(spider traps)”的脚本错误的机制。
快速及时地发现新的数据源,支持新站点的下载策略,快速实现对新站点的网页覆盖率。
网络中,镜像网页现象严重。75%的网页是以镜像、转载方式存在。识别镜像网站,避免对镜像网站的页面下载,能够有效提高下载效率,节省下载带宽.
采集系统是带宽敏感性应用,带宽是系统性能主要瓶颈。系统可对灵活配置网站、网页下载权重和优先级,从而为重点站点、重要网页提供更快的更新频率和更充足的带宽。
无需每个网站制作复杂的模板,匹配下载格式,系统自带云模板库及网站分析工具,自动识别网站内容进行下载,准确率高达80%以上。
由于带宽限制,我们采用增量学习的方法选进行下载,借助现有的关键词库,以及系统下载日志,可以有效自动增量下载,尽可能减少下载的量,同时保证覆盖率。
对中文信息来讲,主要有GB、BIG5和UTF8(UNICODE)、GBK等几种格式;而对于其他语种则有更多的编码格式如:UNICODE、UUENCODE、BASE64、Quoted Printable等,可以实现对以上多种编码格式的支持。
Spider在网际“爬动”时,会找到大量的重复信息。i-Get会对信息源进行URL排重、标题排重、正文排重的三重排重,可以避免下载大量的重复信息,不仅节省了系统资源,同时也可以节省大量的网络带宽,从而大大提高信息采集服务质量。
i-Get具备服务器内存监控、带宽监控、下载日志统计、下载源出错邮件预警等机制,保障下载信息的连续性。
系统提供上万的模板库供下载系统调用,80%以上网站无需定制模板。
