信息获取

通用数据抽取接口

适用于网页、文件(PDF、Word等文档格式)、RSS、XML等数据类型,并可根据客户要求开发扩展适配器。

元搜索引擎

自动对互联网上各类的搜索引擎、站内搜索(可自定义扩展)进行定时检索,合并及排重,并重新进行Rank计算;同时提供即时的关键词和多级树状分类,辅助用户快速缩小检索范围,定位搜索结果。

异构数据规范化

对来自互联网、局域网、文件服务器等各类异构数据来源进行规范化。采用动态数据结构,对残缺数据具有高容忍度。

社会化媒体情报攫取

对各类社会化媒体,如微博、开心网等,跟踪指定内容或账号,并支持对于单条信息的转发、评论、点击数的实时追踪。

碎片数据流式集成

基于互联网上数据的流式、海量、碎片的特点,采用流式集成技术,实时获取增量信息。