数据分析

非结构化数据抽取

网页上的信息多为非结构化文本数据,通过独特的数据抽取技术,能转换为结构化的可索引结构;并支持文档矢量化特性,供各类文本分析算法使用。

互联网网页智能清洗

普通网页上超过70%为杂质信息,通过适用于网页的智能清洗技术,我们可以获取到准确的标题、正文等关键内容,排除掉各类网页广告和无关信息,提高阅读及分析精度。

网页模式挖掘

对同一类的网页,系统可以自动发现其模式,并根据该模式进行清洗及信息提取。我们拥有完全无监督的机器学习算法,极大的提高了生产力及客户操作的便利性。

指纹去重及转载分析

每一篇文档都拥有其特征,我们将其特征编码为语义指纹,存储在系统中;通过比对指纹,可以获得重复信息,并跟踪同样文章的转载情况。对于更为复杂的应用场景,同样支持基于文本相似度的比对算法。

文本相关性挖掘

在内容发布网站、网页广告、文档库、案例库等应用中,有时需要提供与当前内容相关的其他内容,此时需要对指定数据库进行文本相关性挖掘。我们提供基于海量文本数据库的文本相关性挖掘算法。

多级文本分类器

我们拥有国内领先的3级56类的通用中文多级文本分类器。基于SVM算法及中国舆情网的语料集,广泛适用于新闻、论坛、社会化媒体领域。并可根据客户要求,定制其专有分类器。

实时聚类及话题发现

对媒体正在发布的文章、网民正在讨论的内容(微博、评论等),系统实时监测,并通过热点关键词提取或文本聚类算法,来识别形成中的话题,并自动对候选话题进行跟踪及预警。同时可对话题的演化进行分析,识别子话题。

多维情感分析

除通常的正负面情感分析外,我们独家提供“快乐、接受、诧异、惧怕、哀伤、厌恶、期望、愤怒”八个维度的心理学情感模型,便于客户量化评估内容。并可根据客户调研需要,定制情感模型。

多类型实体识别

系统可以自动识别地点、人物、机构、品牌、产品等预定义实体内容,结合我们的行业数据库,可为客户提供广泛的多角度分析。

关键词提取及热点发现

对指定的文章或网页集合,提取其中的热门关键词,进而发现其讨论焦点,并给出量化评估和比对分析。

传播趋势发现及预测

对进行中的传播热点,通过数据跟踪描绘其整体趋势,提供决策支持;同时根据案例库数据,提供基准数据比对分析。

流式模式匹配引擎

我们拥有业内领先的海量模式匹配引擎,可支持超过10万个模式的流式数据海量匹配。