《翔石大数据分析系统.docx》由会员分享,可在线阅读,更多相关《翔石大数据分析系统.docx(14页珍藏版)》请在第壹文秘上搜索。
1、翔石大数据分析系统K-KMV9AK2022X01*22CSTWftOIMWOA0kF)fiNkW)MttOOLftM13多维检索juAmua*Fttflnm西安翔石电子科有限公司2022年3月目录一、产品概述21 .产品描述22 .产品的架构2二、产品核心功能31 .全维数据的整合能力32 .广度和深度的数据检索33 .一站式的数据分析手段44 .数据安全与协同4三、产品技术优势51 .敏捷的数据模型52 .插件化的系统架构53 .数据的可追溯性64 .基于知识图谱的构建技术6四、应用行业71 .专业情报组织情报搜集和分析72 .公共安全领域案件管理和调查研判73 .金融领域一发诈骗和反洗钱8
2、4 .政府部门执法部门调查工作8一、产品概述1 .产品描述翔石大数据分析系统是一款面向各业务领域的专业数据分析系统,用于专项调查或研究工作。其设计理念是:人的思维是识别信息模式的最有效途径,而计算机是管理海量数据最有效的方式;依靠软件分析系统的强大计算能力,人类就能够充分利用他们的智力来识别最佳着力点,这样就有可能革命性改变我们的分析能力;服务客户整理、分析、利用不同来源的结构化和非结构化数据,创造一种人脑决策和计算机智能共生的大数据分析环境及工具系统,人脑和大数据分析互补,提升客户的决策洞察力。在一个专项调查中,分析人员可以广泛采集互联网以及行业信息,将掌握的各种信息碎片(包括结构化、半结构
3、化、非结构化数据)导入系统中并集中管理起来,以有效打破由于多源异构而无法整合的数据孤岛;在知识管理的基础上,系统提供对象检索、对象浏览、关联关系分析、地图分析、对象统计等主要功能,同时根据业务需要,可以结合辅助分析手段如时空分析、路径推演、趋势分析、数据流向等从多个角度去观察和分析数据,依托强大而又灵活的人机共生交互分析功能,最终形成分析结果。而在分析过程中,可以随时将重要的分析结果保存为快照,以供制作调查报告使用。可以说,这是一款能融合全量数据、提供全方位分析手段的一站式数据分析工具。2 .产品的架构翔石大数据分析系统采用多层次体系结构(见下图),整个系统分为数据源层、数据转化层、知识管理层
4、、企业数据层、数据检索层和分析层。持彼依索KFAPls管理开放敌据导入/号出弊析APlWEBUrM入UV 口1台XfVKIhJRESTWS之义数据源帆析纯7同系”IV调代数燃麻MAPREDUCE 染町JobMl致出的化数据抽取结构化与0:结构化Y数据集成g-ggJO联介搜索,集成二,产品核心功能1,全维数据的整合能力大数据时代,任何机构都有跨业务系统的多样海量数据:结构化数据如各种报表、电子表格、设备日志等,非结构化数据如邮件、文档(WOrdPdfHtmlX图片、音频、视频、生物特征等数据;这些数据通常存储在互不相连的各自系统中,而在这些系统里,数据的类型快速多样化,数量呈指数级增长,并且每天
5、都在变化,所以在使用上就变得越来越困难。从事专项主题分析的数据使用人员并不在意某行某列数据的具体内容,其更在乎将所有的数据整合到一个企业级的数据存储库里,以便在他所进行的分析中获得企业数据的一个全局视图。为此,他们需要一种数据交互方式,将这些数据整合并映射到一个统一的模型中,以支持他们的各种应用。翔石大数据分析系统是将数据融合为以人为本的数据模型,所有的数据流进系统时,它们都被转换成有意义的对象和关系:人、组织、地点、事物、事件以及它们之间的连接;这种数据整合功能不仅可以将企业内部各业务部门的数据打通,而且也可以将企业外部数据融入,从而形成一个全量的企业级数据存储库。这种数据整合方式可以有效整
6、合多源异构数据,打破数据孤岛,从而挖掘出数据的最大价值。广度和深度的数据检索一旦数据被集成到翔石大数据分析系统中,它就可以用来进行探索。为此,系统提供了大量的检索方法,以直观和人们可读的方式搜索数据而不需要了解查询语言知识。系统中的所有数据(包括文本、图片、备注等非结构化数据以及结构化数据的每个明细粒度)都可被同时搜索,这自然会导致所有的关联被发现而不会错失。一站式的数据分析手段在调查中,分析人员将掌握的各种资料(数据)导入系统,所有的文本资料和结构化数据被转化为业务知识一一对象和关系,并将其有效管理起来。在知识管理的基础上,系统提供对象检索、对象的浏览和编辑、关联关系分析、地图分析、对象统计
7、等多种分析手段,还可以在以上分析中辅助以时间轴、时间轮、直方图、数据流向等方式进行多角度观察数据。各个分析手段中,前一个分析手段得到的数据集可以作为后续分析手段的输入;各个分析手段形成复杂的分析路径,不同分析路径形成的集合都可以进行集合运算,新集合又称为后续分析的入口;分析路径可以回溯,这样就可以进行快速的反复尝试,利于发现问题并解决问题。分析过程任意步骤都可以随时保存为快照,以便在完成主题分析时摘取主要分析结果汇集形成调查报告。2.数据安全与协同系统数字访问权限控制到最小的粒度一一每一个属性、每一个关联。在每一种分析手段中,都贯彻了用户的权限;可分析的数据集仅仅是用户权限符合的数据。权限除了
8、存取控制外,还可以结合密级使用;信息的不同部分可以设置不同的密级,可以根据用户实际的密级管理规则进行定制。用户创建的每一个调查都是一个私有数据集(用户创建的调查数量不受限制),私有数据集在发布前,同一系统中不同组的其他用户无法访问私有数据集的数据。可以选择私有数据集的全部或者部分内容,发布到共有数据集,以允许其他有权限的用户访问;用户也可以将分析结果,定向发布给有需要的分析人员,共享其分析结果。二、产品技术优势1 .敏捷的数据模型通过“动态本体”的数据模型概念,彻底解决了传统软件工程中数据格式的变动而牵动代码层面的改造问题;“动态本体”能有效地将业务模型、编程模型统一到一起,保证了系统实施过程
9、中,只使用一套模型,避免了因为模型失配造成使用上不便的问题。这个模型更加贴近用户视角,便于用户能够理解和修正,也打通了设计、实现、运行不同阶段的分割,真正做到了软件的柔性。“动态本体”的数据模型,是将数据集成层提炼抽象到了一定高度,将多源异构的数据,映射为业务领域的对象、对象属性和关联;不同机构可以根据自己的业务逻辑定制自己的本体模型;而同一机构的业务逻辑因时间的推移发生变化时,本体模型也可以根据业务变化进行调整,而且这种调整可以快速响应并在几天内完成。2 .插件化的系统架构软件方面:系统采取插件化架构。特殊的业务应用,可以经过工程实践,将需求提炼出来,通过编写不同的插件,插入系统以丰富和业务
10、紧密关联的应用。系统分别在业务逻辑服务器、内存数据库、版本数据库、客户端、模型层、数据集成层等设置了近百个接口,允许编写插件实现这些接口,插入系统,改变系统的特性来满足用户的需求。硬件方面:系统采用分布式架构,可做到线性且实时横向扩展,使得数据量和计算性能不再是系统瓶颈,能够最大限度地汇总和利用数据。3 .数据的可追溯性系统中所有的数据均存储于版本数据库中。在这个结构中,系统中的每个对象都可以被看作是描述这些对象所有特征的一堆卡片,每个卡片描述了一个特征的添加、修改、删除、上述变更发生的时间、谁创建了上述变更、数据的安全级别是什么以及数据的来源。这种结构允许任意对象在几乎所有分析轴上的“重新调
11、整”,以确保数据安全协作。用户在私有的调查里进行数据分析,所有的操作和分析步骤都会自动记录到数据库中,但只有发布了的数据才会同步到基础存储库中;系统支持恢复到任一分析步骤,可以让分析人员快速实现假设验证。4 .基于知识图谱的构建技术知识图谱是知识域可视化或知识领域映射图,是显示知识发展进程与结构关系的一系列不同的网络图,也可以理解是一张由知识点相互连接而成的语义网络。下面几张为软件功能截图。UlSV二一;匚W舟*88?!:*二L十0M方ABSB.BtudB摩SP个TNa+HIHHB_*u.不人CNi*nrae.在ILtiW个硬个重博.*CXHWft/jSBS.Dy1阳1/IIV2II.1&Qi
12、fraasa.Q分悬JeltQan*也显国成IKA文M女氏文件夹202105广州痕情、StrBJJwaEQI.iflwiai!U-件.EBifinMrmo*m*aaaatlBT:2022M-0218:S7EBifiWKtWS信侵网2022MR215反馍-or-系01理员*号2022-04-0614:43CST逑AMWBKW8:202614:41MffM:2022-04-0614:43Kn3H6fijv(w)MVttoi)由MHtrQdSB-202105fllMDWm(H)回0yM不sa.米风三QR.i7S存给上公”一个3个JWr9t文Hai1方.KK从市,大了谭怡Q6flBl:sr.Q/砧Uv
13、omQ*SCMX.9历ER它是机器大脑的知识库、人工智能应用的基础设施,它是把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形描绘而现实出来,是揭示知识领域的动态发展规律、描绘现实世界中概念和概念之间的关系。本系统使用的“动态本体”模型,将所有的数据以实体、属性、事件、关系的形式储存起来,实现了知识图谱的定义:版本数据库技术的使用,如实记录了数据的演化进程,借助系统的大数据统计分析功能,可以直观地揭示数据的动态发展;大规模的分布式图数据库结构,有效地将数据的关联关系描绘和展现;加上系统对信息抽取、知识融合技术以及对数据的深度挖掘、分析能力等,系统能有效且直观地展现数据以及数据背后的关系,真正做到“让数据自己说话”,从而完美地实现了知识图谱落地。而BWf) HiM(F) fi(W) 5图l.f!SW示恁桁O0XdjRJiIn市hrH23.192S01v.112,228110*,朱嫉)庆市 五mean、z广州市,保山市三、应用行业1 .专业情报组织一一情报搜集和分析互联网的迅速发展,互联网信息已经成为人们取之不尽,用之不竭的公开来源信息资源宝库;作为来源于互联网的开源情报(OSINT)的价值也与日俱增,开源情报正成为战略决策、科研活动、外军研窕的强大支持。要从海量的各种繁杂、琐碎的信息海里淘到有价值的信息(情报),