登陆注册
3148900000012

第12章 数据存储与数据挖掘(4)

1.多媒体数据库

音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从多媒体数据中找出所需要的数据和信息有一定的困难。目前,对多媒体数据的处理往往局限于存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索一般依据文件标识、关键字等进行,局限性很大。基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,已成为研究的热点,基于内容的音频、视频信息的聚类、分类、相似性查询等数据挖掘技术正在兴起。

2.空间数据库

空间数据库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等:空间数据库有许多与关系数据库不同的特征。空间数据库包含了拓扑或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,常用空间推理、地理计算和空间知识表示技术。空间数据挖掘是指在空间数据库中非显式存在的知识、空间关系或其他意义的模式等的提取,它需要综合数据挖掘和空间数据库技术。目前在GIS中得到广泛的应用,空间数据挖掘的方法主要有归纳方法、聚集方法、统计信息网格算法(STING)以及空间聚集和特征邻近关系采掘等。

3.文本数据库

一般认为,数据挖掘的大部分研究主要针对结构化的数据,如关系的、事务的数据川。然而在现实世界中,可获取的大邻分信息存储在文本数据库中,由新闻、论文、书籍、数字图书馆、电子邮件消息等各种数据源的大量文档组成。文本数据库中存储的数据一般是半结构化的数据,也可能包含大量的非结构化的成分。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,而用户需要知道不同文档的比较,以及文档的重要性和相关性排列,或需要找出多文档的模式或趋势。文本挖掘不仅仅是把统计模型应用到数据文件上,而且是揭示文本集合之间的联系。特别地,联机文本挖掘指把网上的文本数据仔细搜寻一遍并从中获得一些信息,目前是通过互联网的搜索和文本分析方法实现。

4.Web数据库

Web数据库是Web和数据库技术的有机结合,是一个庞大而复杂的数据库,其存储数据的最大特点就是半结构化。Web上的每一个站点就是一个数据源,每一站点的信息和组织都不一样,形成了一个巨大的异构数据库环境。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题,这就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在,另外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型描述语言,将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。显然,面向Web的数据挖掘比一般的数据挖掘要复杂得多。

3.4.4数据挖掘的方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大regina大学开发的kddr;美国kansas大学开发的lers等。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michal-ski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

同类推荐
  • 伊斯兰经济思想

    伊斯兰经济思想

    本书作为中国第一部较为系统地探讨伊斯兰经济思想的学术著作,共5章16节,论述了伊斯兰经典经济思想、中世纪伊斯兰经济思想、近代伊斯兰经济思想、现代伊斯兰经济思想、中国伊斯兰经济思想的发展历程、基本内容、基本特点、主要代表人物等。
  • 听经济学家讲故事

    听经济学家讲故事

    经济学就像远远挂在天边的星辰,可望而不可及吗?经济学是复杂的理论,高深的原理,抽象的数学符号吗?不,经济学是和我们现实生活密切相关、不可分离的、妙趣横生的事实。本书就是你正在寻找的通俗化的、不用费力就可读懂的“经济学”。在这本书里,你可以从大量的生活小事中明白经济学的规律,从生动风趣的描述中学到经济学的常识,却不需要去读那些高深莫测的理论,去钻研那些艰涩难懂的经济学读本。
  • 酒店经营管理

    酒店经营管理

    酒店经营管理策略。酒店业是旅游业的重要组成部分,是我国开放以来发展最迅速、国际化程度最高并将持续发展的朝阳产业。本书内容涉及:酒店概念、酒店管理基础、前厅服务管理方法、客房服务与管理实践、餐饮服务与实践、康乐中心及其服务管理、酒店营销管理、酒店理财管理、酒店人力资源管理等内容。
  • 麦肯锡咨询方法

    麦肯锡咨询方法

    《麦肯锡咨询方法》麦肯锡咨询公司是一家享誉全球的跨国公司,麦肯锡大多数的客户均为各国优秀的大型公司,如排在《福布斯》500强的美国公司和有实力的公司。这些公司分布于汽车、银行、能源、公共事业、零售、电信和交通等各行各业。世界排名前100家公司中70%左右是麦肯锡的客户,其中包括AT&T、花旗银行、柯达公司、壳牌公司、西门子公司、雀巢公司等。
  • 改变历史的经济学家

    改变历史的经济学家

    本书的突出特点是科学性、知识性和趣味性俱佳,历史感和现实感兼备。作者以丰富的史料和生动的笔法,描绘了5克思政治经济学伟大先驱者们栩栩如生的画像,这些人大都是历史上杰出的学者或卓越的社会活动家,他们的著作在5克思主义的形成上起过重要作用。作者以不少篇幅评介了经济学说史上具有代表性的一批庸俗经济学家,5克思主义的形成和发展同对这些人其学说的批判是分不开的。作者还向读者评介了一些鲜为人知的历史人物,他们尽管在当时并不出名,但从经济学后来的发展来看却是值得重视的。
热门推荐
  • 合欢树

    合欢树

    我跟兰姐在网上聊得火热的时候,父亲打电话来说有人正在拆的治安亭,让我快帮忙想想办法。兰姐是我门对门的邻居,有个接近白痴的网名,迷惘。有人要拆的治安亭?我电脑都没关,飞也似地跑了出去。物业管理公司的几位保安在拆治安亭,指挥的是肥队长。这位肥队长与我倒是有点交情,几个月前朋友请喝酒,他刚好也在;之后,我们在小区内遇见就停下来互表景仰之情,敬支烟什么的。治安亭和旁边的合欢树都长一块了,树冠几乎把整个治安亭都包裹在里头。亏了这一左一右两棵合欢树,在大热天的时候,在这个一半铝合金一半玻璃的治安亭里头呆得下去。
  • 地球至强男人

    地球至强男人

    我有个美女冰山老婆,她却对我一直不冷不热,今日酒意正浓,不防趁此机会,嘿嘿……想我上门女婿战战兢兢受人白眼,看我一朝得势从此鸡犬升天,就是这么屌,有本事咬我啊!
  • 魔山(下)

    魔山(下)

    时间是什么?是一个谜——看不见摸不着,却又威力无比,是现象世界存在的一个条件,是一种运动,一种与物体的空间存在和运动紧紧结合在一起的运动。那么,没有运动,就没有时间?没有时间,也没有运动?只管问吧!时间是空间的一种功能?抑或相反?抑或两者原本是一回事?这可走得太远了!时间在行动,具有活动性,能够“产生效果”。什么样的效果?变异!这时不再是那时,此地不再是彼地,因为在它们中间有了运动。然而,由于人们用来计量时间的运动又是循环往复的,自我封闭的,这样的运动和变异差不多同样可以称为静止不动;因为那时不断地在这时重现,彼地不断地在此地重现。
  • 异界最强魅力系统

    异界最强魅力系统

    现世千金穿越异界,获得神秘系统,幸运不断,惊喜不断。
  • 诸神纪时空苏醒

    诸神纪时空苏醒

    神秘的失忆,无奈的意外,自认为是个普通人的凌若凡不得不踏入轮回空间,去争取那一线生机来继续陪伴至亲。他跟随着传奇大法师,替她奏响冰与火的挽歌他秉承着公主的遗愿,为世界带来光与暗的救赎当真相逐层揭开才恍然发掘,原来有那么多人——在等他归来
  • Philosophy 4

    Philosophy 4

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 准提净业

    准提净业

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 追妻无门:女boss不好惹

    追妻无门:女boss不好惹

    青涩蜕变,如今她是能独当一面的女boss,爱了冷泽聿七年,也同样花了七年时间去忘记他。以为是陌路,他突然向他表白,扬言要娶她,她只当他是脑子抽风,他的殷勤她也全都无视。他帮她查她父母的死因,赶走身边情敌,解释当初拒绝她的告别,和故意对她冷漠都是无奈之举。突然爆出她父母的死居然和冷家有丝毫联系,还莫名跳出个公爵未婚夫,扬言要与她履行婚约。峰回路转,破镜还能重圆吗? PS:我又开新文了,每逢假期必书荒,新文《有你的世界遇到爱》,喜欢我的文的朋友可以来看看,这是重生类现言,对这个题材感兴趣的一定要收藏起来。
  • 卒子过河成大器

    卒子过河成大器

    《卒子过河成大器》将告诉你作为一个卒子,在生命的长河中,你需要如何跨越。过河前,你需要如何创造机会,如何处理前进中的问题,过了河后你又需要如何面对,如何不被困入河中。只要你有了过河的勇气和心态,卒子成大器,指日可待!卒子为什么要过河?这是《卒子过河成大器》开篇的疑问。我们是大社会棋盘上的棋子,我们中的大多数是这棋子中的卒子。但是只要卒子能过河,就发挥了他最大的价值,即成大器!
  • 陨无极

    陨无极

    满清御前侍卫与才子,纳兰容若,灵魂飘落在这千年前的秦朝。附于巴蜀郡温家的小小公子温容身上。且看少年如何颠覆这乾坤,结英雄,破红尘,遁入历史长河;着朝服,修帝陵,执掌天下棋局;寻帝者,承史书,大隐隐于世间。