登陆注册
3148900000013

第13章 数据存储与数据挖掘(5)

6.统计分析方法

在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。

7.模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型———云模型,并形成了云理论。

3.4.5数据挖掘中的关键技术

数据挖掘在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。

1.数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

2.数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。

3.数据的展现

在数据展现方面主要的方式有查询、报表、可视化、统计输出、挖掘结果等。查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计输出:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘结果:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

3.5数据挖掘与智慧城市

3.5.1智慧城市建设中数据挖掘的任务

数据挖掘技术的应用将会渗透到智慧城市的建设的多个方面和领域,为智慧政府、智慧交通、智慧教育、智慧社区等的发展提供重要的技术支持。在智慧城市的建设中,数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

1.关联分析(Association Analysis)

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

2.聚类分析(Clustering)

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

3.分类(Classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

4.预测(Predication)

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

5.时序模式(Time‐series Pattern)

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

6.偏差分析(Deviation)

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

3.5.2数据挖掘在智慧城市的应用

数据挖掘应用范围比较广泛,在智慧城市建设中,将主要应用于金融、电信、证券、商业、市场营销、政府等部门。目前,CRM(客户关系管理)利用了可视化数据挖掘技术,已有许多很成功范例。数据挖掘成功的两个关键因素是:一个大且完整的数据仓库和一个可挖掘的定义、理解都明确的商务流程,如客户展望、保持,商业活动管理,等等。一些成功的应用案例包括:

1.制药公司

一家制药公司可以分析他最近的销售行动及其结果以改进高位值医师的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果;数据需要包括竞争对手的市场活动,信息和当地医疗系统的信息一样;结果可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议;随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。

2.信用卡公司

一个信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品;使用一个小型的测试邮件,就可以确定一个客户对新产品的亲和力属性。最近的研究已经表明,采用超常规的方法对指定目标的邮寄活动,可以节省20倍的费用。

3.运输公司

一家拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服务的最好模式,用数据挖掘来分析他自己的客户体验,还可以建立唯一的分段以确定高位值的预期。对诸如由Dun&Bradstreet提供的那些一般商务数据使用这些分段可以产生一张按地区排列的优先列表。

4.货物包裹公司

一个大的消费者货物包裹公司可以利用数据挖掘来改进对零售商的销售流程。来自消费者组织、运输商以及竞争对手活动的数据,可以用于理解打上印记和仓储转移的原因。通过这些分析,制造商可选择能最好地运抵目标客户地区的运输商推荐策略。每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策略。

同类推荐
  • 城市经营新论

    城市经营新论

    《城市经营新论》在经营城市过程中,城市规划被摆上了前所未有的位置。站在经营城市的角度,优秀的规划确实给社会创造财富,给政府带来效益,给百姓送去实惠。
  • 全球大趋势2:被债务挟持的世界经济

    全球大趋势2:被债务挟持的世界经济

    在美国两轮量化宽松和中国4万亿的刺激下,人们普遍预期世界经济将如期复苏。但正如米塞斯所说:“信用扩张确实能导致一时的繁荣,但这种繁荣迟早会归于破灭,导致新一轮的萧条。”世界经济衰退的阴影于2011年年中再次橫扫全球。引发这次恐慌的是再度出现的类似于2008年秋季的违约危机,只不过上次麻烦的制造者是那些金鬲机构,而这一次则是政府债务。 更为麻烦和棘手的是,世界逐渐“老”去,创造财富的人将越来越少,但需要赡养的人口却越来越多。当前的债务问题只能曰益恶化,世界经济被债务挟持……
  • 政府与市场:看得见的手与看不见的手

    政府与市场:看得见的手与看不见的手

    本书从历史、现在、未来三个视角和理论、实践两个方面,以时间为线索,通过回顾总结新中国成立以来的经济建设成就和教训,以事实论证改革开放是决定当代中国命运的关键抉择,论证处理好政府和市场关系的重要意义;而后分析当前政府和市场关系上存在的主要问题;最后对2013—2020年理顺政府和市场关系的指导方针、目标和主要政策进行阐述。
  • 赚钱的逻辑

    赚钱的逻辑

    《赚钱的逻辑》从“为什么总是这么穷”的发问开始,引导读者正确审视自己存在的、阻碍致富的穷人思维。《赚钱的逻辑》一书从自我认知、自我驱动、职场、消费心态、人际交往等方面入手,层层抽丝剥茧,列举了大量穷人思维的案例,阐述了穷人思维带来的危害,同时还提供了改变思维方式的实用方法,使读者阅读时,不仅能有理论上的感知,更能有实践上的指导。《赚钱的逻辑》揭示了,要想过上自己想要的生活,必须具备一颗富有的头脑,摒弃有害的错误的知识,更新财富知识系统结构。
  • 中国与印度携手“一带一路”:前景与挑战(中国社会科学院“一带一路”研究系列·智库报告)

    中国与印度携手“一带一路”:前景与挑战(中国社会科学院“一带一路”研究系列·智库报告)

    得益于地缘位置优势与可观的发展前景,印度在“一带一路”构图中的重要性不言而喻。但长期以来,印度支配印度洋的意图明显,对其他国家在印度洋地区拓展利益保持高度警惕,又在印度洋-太平洋范围开展活跃的地缘政治联合,因此促使印度成为“一带一路”上畅通一环的努力面临重重困难。本书主要分析了印度的内外环境、一带一路战略与中印携手的共赢效应,以及既有矛盾和发展空间对中印在一带一路基础上展开合作的消极影响,最后提出了对策建议。
热门推荐
  • 妖后历险记:人间遇到魔王

    妖后历险记:人间遇到魔王

    命理奇特,人间历劫,恰遇在人间的魔王,体内的能量不断地爆发,技能不断提升,人间劫数已解,情结难解,解的开的劫数,解不开心里思念乱如麻,注定的命运在结束时又重新轮回。
  • 修仙之二公主无药可救

    修仙之二公主无药可救

    没有简介就是最好的简介,凑字数凑字数凑字数
  • 恩仇故事

    恩仇故事

    无数事实、经验和理性已经证明:好故事可以影响人的一生。而以我们之见,所谓好故事,在内容上讲述的应是做人与处世的道理,在形式上也应听得进、记得住、讲得出、传得开,而且不会因时代的变迁而失去她的本质特征和艺术光彩。为了让更多的读者走进好故事,阅读好故事,欣赏好故事,珍藏好故事,传播好故事,我们特编选了一套“故事会5元精品系列”以飨之。其选择标准主要有以下三点:一、在《故事会》杂志上发表的作品。二、有过目不忘的艺术感染力。三、有恒久的趣味,对今天的读者仍有启迪作用。愿好故事伴随你的一生!
  • 我家校草一点也不乖

    我家校草一点也不乖

    【新文《甜心撩人:恶魔校草,温柔点》已发】 初遇,她随手将他推入水池,只因为:好玩儿!安明泽,贵族学院里无人敢惹的大牌校草,却在公众场合被苏小妖推入水池,丢尽了脸面!苏小妖,高傲,自信,目中无人,只是觉得安明泽这个人很好玩儿,就起了戏谑之意,却没有想到,因此被这个大牌校草给缠上了。“本少爷看上你了,从现在起,你就是我的人了。”“看上本小姐的人数不清,想让我跟他们在一起的人也数不清,你,凭什么脱颖而出?”苏小妖挑眉。“凭你把我推下水池了……”安明泽脸不红心不跳的回答。
  • 追妻无门:女boss不好惹

    追妻无门:女boss不好惹

    青涩蜕变,如今她是能独当一面的女boss,爱了冷泽聿七年,也同样花了七年时间去忘记他。以为是陌路,他突然向他表白,扬言要娶她,她只当他是脑子抽风,他的殷勤她也全都无视。他帮她查她父母的死因,赶走身边情敌,解释当初拒绝她的告别,和故意对她冷漠都是无奈之举。突然爆出她父母的死居然和冷家有丝毫联系,还莫名跳出个公爵未婚夫,扬言要与她履行婚约。峰回路转,破镜还能重圆吗? PS:我又开新文了,每逢假期必书荒,新文《有你的世界遇到爱》,喜欢我的文的朋友可以来看看,这是重生类现言,对这个题材感兴趣的一定要收藏起来。
  • 斗傀天师

    斗傀天师

    陆家在这枭凰灵国辉煌了几百年,历任陆家家主无不是飞云踏雾的斗傀强者。想不到时至今日竟荒废颓败至此,族人散尽,门庭残败,现任家主陆辰也整日靠着仅存的底蕴纸醉金迷浑浑噩噩。本想这陆家到此算是彻底完了,可怎知这陆辰却生了个好儿子,这次天枭学院招测此子竟然以一敌众荣登魁首,只是这不争气的爹荒废了他这天生的聪资!真是作孽哟!
  • 诗无邪

    诗无邪

    “诗三百,诗无邪”,《诗经》,一部国学经典,数千年来诵读至今,各种研究和解读亦汗牛充栋。《诗无邪:<诗经>鉴赏、评析与考证》系傅斯年先生二十世纪二十年代任中山大学教授时,讲授《诗经》的讲义。作者以深厚的史学功底,提出许多新的《诗经》研究方法、理念和观点,是一部系统、全面研究《诗经》的经典之作。
  • 重庆爱情

    重庆爱情

    《重庆爱情》描写了抗战期间发生在中国战时首都重庆的一段跌宕起伏 的爱情故事。在重庆独特的人文景观和自然景观的背景下,一对青年男女在 经历了一系列生活磨难、精神蜕变之后,最终以悲壮的方式,奏响了一曲感 天动地的爱情之歌,同时也完成了令人向往的精神追求。巴蜀风情。至真爱情。红色绝唱。
  • 无限翻倍

    无限翻倍

    神武次世界登陆地球,法则相融,人类开启了次世界修炼争霸之路重生回到十年前,林远带着前辈大神的攻略经验以及翻倍系统,在神武次世界中,快速崛起,只手遮天经验、装备、攻击、钱财、能量……在我手里可以无限翻倍 秦皇汉武,唐宗宋祖,三国,隋唐,夏商周,元明,五代十国等,华夏历朝历代同处一个时空,玩家的崛起,万国争霸,非常热血 神武位面强者即将降临,这是一个现实的游戏世界 欢迎加入无限翻倍群:281504058
  • 喋血佣兵:残暴陛下真要命

    喋血佣兵:残暴陛下真要命

    他说:“女人,除了身体,你毫无价值!”她嗤之以鼻:“男人,你连身体,都是废物!”一个是喋血佣兵,一个是暴虐帝王。她穿越而来,助他登上九重皇位,却换来别的女人新婚之夜。十尺城墙,她带着他未出世的孩子,轰然跳下。若干年后,当冰冷的指尖掐住他的脖子。她说:“这世界上,我只相信一种人不会背叛,那就是死人!而你,非死不可!”天下三分,他们以彼此为诱饵,执掌生死棋局。江湖朝堂,他们互不相容却形影不离。当爱与恨纠结缠绕,她究竟是信了帝王无情,还是选择他说的白首不离?