产品中心

Product Center

神通T-Miner文本挖掘分析系统

      

      神通T-Miner文本挖掘分析系统(简称“神通T-Miner”)用于对文本数据进行分析和挖掘,发现其中隐藏的价值和规律。为了支撑对海量数据的分析,神通T-Miner支持多机MPP并行计算和单机多核SMP并行计算架构。


神通T-Miner架构图


      内容分析挖掘技术,主要通过中文分词、数据挖掘、机器学习、自然语言处理等技术,对公安报社相关数据进行深度分析和挖掘,从中获得有价值的信息。


产品功能


1、中文分词

       中文分词是一切文本分析技术的基础,用于将一句话切分成一个个单独的词。例如:语句“中国的教育质量下降了”分词结果为“中国 的 教育 质量 下降 了”。

      提供中文分词功能,包括但不限于通用词库、姓氏词库、行政区划词库、政府机构词库、世界城市词库、褒贬义词库、名人词库、领导人词库、停用词库、同义词库、敏感词库、数量词库等各种词库,提供不少于50万的精选词库。为公安报社内容数据分析奠定了基础。

      提供基于词性分析、句法分析的分词歧义消除技术,使得对歧义语句的分词更为准确,保证分词质量。对于有多种可能的分词结果的,只保留最优的结果,也就是将一句话进行断句。例如:语句“结婚的和尚未结婚的”纯粹从词语拆分的角度可以有“结婚 的 和尚 未 结婚 的”和 “结婚 的 和 尚未 结婚 的”两种拆分方式,但是从语义的角度来看,我们希望的是后者。采用歧义消除策略,则可以解决这一问题。

     提供新词识别技术,根据词频共现变化关系,发掘新词、热词;通过分析报刊行业语料,自动发掘行业专有词汇。


2、自然语言处理

     词性标注:对于内容分析来说,名词、动词等某些特定词性的词往往非常重要的作用;并且,不同词汇很可能因为语境不同,而存在不同的词性。因此,识别报刊内容中每个词语的词性,对于报刊内容的深度分析至关重要。例如:语句“潘长江在北京市电视台接受采访”词性标注的结果为“潘长江/人名 在/介词 北京市/地名 电视台/名词 接受/动词 采访/名词”。

     句法分析:对于某些特殊场景,例如舆论态度分析等,很多时候需要深入解析句子的结构,从而识别句子中的主谓宾等成分。例如:语句“潘长江在北京市电视台接受采访”的句法解析结果为“潘长江/主语 在/状语 北京市/定语 电视台/介宾 接受/谓语 采访/宾语”。

     命名体识别:很多时候,报刊数据分析的核心是事件,而事件的核心首先是人物、地点、机构等信息。因此,准确识别人名、地名、机构名等命名体至关重要。例如:语句“潘长江在北京市电视台接受采访”可识别出“潘长江 北京市 电视台 采访”等命名实体。

     时间推理:对于事件分析,还有一个重点是时间。而很多时候,人们喜欢用相对时间进行时间描述,例如下周一、后天等,因此我们需要利用时间推理技术将这些相对时间还原成绝对时间,以对这些时间进行充分利用。例:语句“08年北京申办奥运会,8月8号开幕式。1年后的7月21号发生了件大事。今天天气不好,下周日天气不错。”的时间推理结果为“08年---> 2008年;8月8号---> 2008年8月8日;1年后7月21号---> 2009年7月21日;今天---> 2013年8月16日;下周日 ---> 2013年8月25日”。

     指代消解:文本内容中,往往难免存在你我他等代词,而很多文本分析技术是基于词频统计的,因此就没办法将代词和其实际指代对象进行词频求和,从而导致词频统计错误,最终影响文本分析结果。而指代消解技术能够将代词还原为其实际指代对象。例如:语句“复旦大学创建于1905年,它位于上海市,这个大学培育了好多优秀的学生”的指代消解结果为“它—>复旦大学;这个大学-->复旦大学”。


3、中文信息处理

      政治常识校对:对于报纸新闻来说,政治常识错误是非常严重的问题,因此需要政治常识智能校对的技术,帮助记者、编辑、作者等校正相关错误。例如,领导人名和职位不匹配、领导人排序有误、反动政治术语等。

      信息抽取:按照一定的抽取规则,自动抽取期刊文章或新闻中的特定信息,例如作者、单位等,为期刊文章和报纸新闻录入时作者、时间等信息抽取,以及用户画像时用户特征抽取提供支撑。

     文本相似度分析:对新闻或报刊文章内容进行文本相似度分析,从而为新闻推荐、版权跟踪等提供技术支撑。

     文本比较:自动分析两文本间的段落、句子重复度,从而为版权分析提供技术支撑。


4、文本挖掘

      文本分类:用于为期刊文章和报纸新闻录入、用户新闻类别偏好分析等提供报刊自动分类功能,节省人工划分的时间。本方案支持朴素贝叶斯、贝叶斯网络、支撑向量机3种文本分类算法,以及规则分类、多层分类算法。为了提高文本分类速度,改善文本分类模型稳定性,本方案提供6种特征抽取算法。每个分类算法能够给出每个类别的分类概率。例如,在新闻录入系统时对新闻类别进行划分。划定新闻类别,一方面使用户对发生的事件情况有一个整体的了解,如按案件类别进行分类,包括诈骗案、抢劫案、杀人案、盗窃案等,通过分析每种类别的案件数,可以加大人力对某类案件的处理力度;另一方面,方便用户在进行检索时按照类别进行数据的检索。

   文本分类包括两种形式:

   (1)基于语料和数据挖掘技术的自动分类,简称自动分类;

   (2)基于规则的自动分类,简称规则分类。

     文本聚类:按照“物以类聚”的思想,将新闻和期刊文章进行自动聚类,使得具有相同或相似主题的新闻和期刊文章自动聚类同一个类别,并给出每个聚类的特征词列表,从而为话题识别、新闻热点分析、新闻选题等提供技术支撑。

     情感分析:基于词性标注、句法解析等技术分析新闻、期刊文章的用户评论信息等,从而自动识别用户对相关新闻、话题等的舆论情感,从而为新闻选题、舆情分析等提供技术支撑。

      物关系分析:基于人名识别算法,提炼新闻、期刊文章中的人名,并对人名在相同文献中共同出现的频率进行分析,最终挖掘出哪些人存在紧密的共现关系,从而为新闻选题提供技术支撑。

      关键字趋势分析:当给定关键字时,能够分析出该关键字随时间变化的热度趋势,并且给出不同时期和此关键字共同出现的关键字,从而为新闻选题、知识脉络分析等提供技术支撑。

      话题自动识别与检测:通过话题识别算法,将内容较为相似的新闻进行自动聚合,从而识别出话题组,进而识别出热点话题,为新闻选题、舆情分析等提供技术支撑。