![]() ![]() |
神通T-Insight是神通BI的文本分析组件,实现了对网页、WORD、PDF等多种格式的文本数据进行深度分析,T-Insight主要包括三大功能模块:
■ 网络信息爬取:按照用户配置自动定期爬取目标网站上的网页及其附件,并自动进行格式转换、内容去重、文档分类等预处理。中的“文档分类等预处理”改为“内容分类等预处理”。
网络爬取配置界面
■ 文本检索:即包括基于关键字及其组合条件的全文内容检索,也包括基于标题、作者、时间等元数据的检索,两类检索可结合使用。
■ 文本挖掘:从语义层面对文本的内在价值进行深度分析和提炼,包括文本的自动分类、自动聚类、信息抽取、观点挖掘、情感分析、知识图谱等功能。
■ 网页爬取
1、灵活地网页爬取的策略和控制
可以灵活配置网页的爬取策略,包括设置被爬取的目标站点、关键字、页面深度、页面数量,提供正则表达式风格的爬取过滤器。对爬取过程具备良好的可控性,包括对爬取的启动、停止、调度计划、过程监视、集群式爬取等功能。
2、基于统计学习的自然语言处理
基于大规模语料进行统计学习的方法与基于规则的方法相结合来实现分词、歧义消除、词性标注、命名体识别、句法解析、指代消解、时间推理等底层的自然语言处理功能,由此使得构建在此基础上的文本检索、分析和挖掘等顶层功能在准确度和性能方面相比于传统有了数量级的提升。
3、 知识脉络分析
不仅提供微观层面的文本单一检索,还支持宏观层面的知识脉络分析。以文档集为基础,以主题词或关键字为核心,统计分析各文本中所含有知识点及其相互间的关系,通过脉络图、趋势图等可视化方式展示知识点的时间变化趋势;展示知识点的热度及其变化趋势,展现知识点之间的共现关系,以及展现各知识点之间交叉、融合关系的演变。
软硬件环境
|
参考配置
|
CPU
|
CPU类型:
- Intelx86-32/Intelx86-64
- AMD-32/AMD-64
- Sparc-64
- Power
CPU主频:最低1.0 GHZ,建议2.0 GHZ及以上
CPU核数:建议8核以上
|
内存
|
最低1GB,建议8GB及以上
|
存储空间
|
10GB以上
|
操作系统
|
- Microsoft® Windows 系列(NT 4.0以上)
- Linux系列
- Solaris Unix系列
- HP-UX系列
- AIX系列
|