系统软件与软件安全

课程名: 
大规模的数据并行处理系统 

简介: 
计算机从它诞生的第一天起就和数据打交道。 它的基本模式是对输入的数据进行复杂的运算并以大大超过人类计算能力速度输出结果。 在人类探索物理和物质世界的强大需求下, 计算机不断地扩大功能。 它将物质和物理世界转变为数字世界,然后通过强大的计算机, 包括超级计算机对代表物质和物理的数字世界进行深度的计算和分析, 使人类社会有了前所未有的科技突破, 包括天气预报、 新型材料的研发,和各种各样的物理模拟。 

今天大数据的爆炸并不是已有的物理和物质的数字世界的一个延续, 而是一个新的、更大更猛的数字世界的降临。 随着互联网、无线上网、物联网等网络新技术的迅猛发展, 我们每个人都生活在一个充满数据的时代。 我们通过电话、微博、QQ、微信、网上购物、滴滴打车、网上学习、网上查询等日常生活和工作行为共同创建了不断增长的大数据世界。 这个新的数据世界精确地记录和追踪人类自身的行为,也是大数据的主要来源。 这就是为什么有史以来90%的数据是过去两年产生的原因。 为了从这个大数据中获得新的知识, 特别是对人类行为, 包括消费、社交、思维等 进行深入的分析和了解,我们的计算机系统的主流结构已成为数据中心。 

大数据的到来全方位地颠覆了IT领域的系统开发和数据处理的应用。通用的数据库技术不能满足大数据可扩展和高容错的特殊需求。 传统的数据管理的商业模式也不被日益增加的非盈利用户所接受。 面对这些新的社会和市场的需求, 新开发的大数据主流系统是以低成本的开源软件、云计算的模式出现的。这一趋势必将加速传统的商业数据处理系统的市场萎缩。在大数据时代, 数据处理的应用已经远远超出事务处理(transactions)和模拟(simulations), 而是要做各式各样的数据分析。 

大数据处理有以下几个特点:(1)在大数据的高频率的读写需求下,通用的数据结构,比如,B+-Tree 是不能满足要求的。(2)处理的平台一定是大规模和可扩展的分布式系统;(3)并行处理是分析大数据的一个主要软件构架。(4)需要新的高效存储技术和调度算法的支持。(5)在高效和优化的条件下,先进的存储硬件,比如,固态闪存器件(SSD),是大数据系统中的一个重要组成部分。 

讲义: 

见课程大纲

地址:安徽省合肥市蜀山区黄山路443号     电话:0551-63603804         

中国科学技术大学网络信息中心制作维护