应用背景
大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为大数据、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、大数据、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。
数据技术发展历史
认识大数据
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
大数据定义与特点
“大数据”是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
数据体量巨大。从TB级别,跃升到PB级别。
数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
大数据的采集
科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大量的如数如果不加以分析和利用,就是一堆无用的数字,而在现今科技的背景下,大数据的样本采集已经不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律,才是当下最迫切的需求。如何从繁杂的数据中采集出有效信息,是如今大数据采集的重中之重
大数据的挖掘和处理
由于大数据庞大的数据量,人工的运算是必然无法达到需求的。但是先下科技的发展让数据已经从过去的GB,TB发展到如今TB到PB的级别,普通计算机的能力已经无法满足发数据计算的需求。所以各种大型计算机超级计算机应运而生。然而硬件满足了需求,但是软件,架构,和应用方式却无法达到很好的效果。如现在世界上有很多巨型计算机,超级计算机。但共同面临的问题是如何有效的利用它的资源。
要提高数据处理性能,就一定要用到并行计算,分布式运算的技术,而在网络,巨型机飞速发展的今天,依托分布式和虚拟化技术的云计算也必然成为了热门的技术选择。可以说解决好大数据的问题,并行计算,分布式技术,云计算等是必须要了解和掌握的技能,并且他们相互依赖,又协同合作处能强大的功能,如分布式数据库,云存储等在大数据的挖掘和处理方面都起到了至关重要的作用。
大数据技术的主要应用领域
1. 分布式存储计算架构(强烈推荐:Hadoop)
2. 分布式程序设计(包含:Apache Pig或者Hive)
3. 分布式文件系统(比如:Google GFS)
4. 多种存储模型,主要包含文档,图,键值,时间序列这几种存储模型(比如:BigTable,Apollo, DynamoDB等)
5. 数据收集架构(比如:Kinesis,Kafla)
6. 集成开发环境(比如:R-Studio)
7. 程序开发辅助工具(比如:大量的第三方开发辅助工具)
8. 调度协调架构工具(比如:Apache Aurora)
9. 机器学习(常用的有Apache Mahout 或 H2O)
10. 托管管理(比如:Apache Hadoop Benchmarking)
11. 安全管理(常用的有Gateway)
12. 大数据系统部署(可以看下Apache Ambari)
13. 搜索引擎架构( 学习或者企业都建议使用Lucene搜索引擎)
14. 多种数据库的演变(MySQL/Memcached)
15. 商业智能(大力推荐:Jaspersoft )
16. 数据可视化(这个工具就很多了,可以根据实际需要来选择)
17. 大数据处理算法(10大经典算法)
大数据中常用的分析技术
u A/B测试、关联规则挖掘、数据聚类、
u 数据融合和集成、遗传算法、自然语言处理、
u 神经网络、神经分析、优化、模式识别、
u 预测模型、回归、情绪分析、信号处理、
u 空间分析、统计、模拟、时间序列分析
大数据的应用
大数据可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。举个本专业的例子,比如在奶牛基因层面寻找与产奶量相关的主效基因,我们可以首先对奶牛全基因组进行扫描,尽管我们获得了所有表型信息和基因信息,但是由于数据量庞大,这就需要采用大数据技术,进行分析比对,挖掘主效基因。例子还有很多。
大数据能做什么?我们那么多地方探讨大数据,无非总结下来就做三件事:
第一,对信息的理解。你发的每一张图片、每一个新闻、每一个广告,这些都是信息,你对这个信息的理解是大数据重要的领域。
第二,用户的理解,每个人的基本特征,你的潜在的特征,每个用户上网的习惯等等,这些都是对用户的理解。
第三,关系。关系才是我们的核心,信息与信息之间的关系,一条微博和另外一条微博之间的关系,一个广告和另外一个广告的关系。一条微博和一个视频之间的关系,这些在我们肉眼去看的时候是相对简单的。
大数据说的那么悬,其实主要是做三件事:对用户的理解、对信息的理解、对关系的理解。如果我们在这三件事之间还要提一件事的话,一个叫趋势。他也是关系的一种变种,只是关系稍微远一点,情感之间的分析,还有我们政府部门做的舆情监控。他可以监控大规模的数据,可以分析出人的动向。在美国的好莱坞,这两年也是基于FACEBOOK和TIWTTER的数据来预测即将上映的电影的票房。这也是一个趋势的分析,只是我们把这个趋势提前来。核心就是这三件事。
大数据课程体系设置
传统高校所开设的数据相关的课程没有专门正对大数据内容的,或者对各个学科的学生设置相同的课程内容,导致学生学习过程中可能会话大量的时间与精力在与自身专业无关的内容上。但是想要改变这一现状往往会面对很多跨学科的情况,毕竟大数据领域不仅需要计算机的知识,还需要数据分析的能力以及各个学科本身的知识内容,这对课程设置和每个领域课程设置深入程度有较高的把控要求,这也就是为什么现在大多数的高校和培训机构设置的课程并不合理,学生学习之后走向社会总觉得能力会有所偏差和不足的原因。
建设意义
实验室对学校的意义
Ø 大数据实训实验室的建设对学校科研、教学的实现和完善具有重要意义;
Ø 促进产学研一体化、促进科研成果转化并最终成为生产力;
Ø 提高学校的竞争力和学生的实践能力;
Ø 有利于提升学校的品牌。
实验室对教师的意义
Ø 实验室方便教师对学员实验过程进行把控,提升教学质量;
Ø 实验室提供管理机,使老师便于对学生实验的管理,使教学效率提高;
实验室对学生的意义
Ø 大数据实训实验室提供了真实的网络环境,可以让学生亲自搭建网络、亲自动手调试、配置网络,进行大数据实验,从而让学生直观、全方位了解各种大数据平台的搭建和应用环境,真正加深对大数据的认识;
Ø 同时,也使学生在毕业时扩大了择业的范围。