在技术方面,科学家们从现有层面上提出各种新兴技术。比如从数据处理角度,有分布式处理方法MapReduce,较著名的应用工具有Hadoop 和DISCO。在如何提取有价值的信息,处理底层的结构化技术支持外,数据挖掘算法,机器学习算法都是必不可少的。
在企业经营管理和产业服务方面,大数据挖掘将成为企业及服务机构等诸多行业的转折点。伴随着大数据挖掘技术在企业管理中带来经济效益的同时,也带来了管理模式的巨大改变,企业必须拥有三类人才:管理人才、分析人才及技术型人才。
在教育教学方面,一所具有强大数据挖掘能力的远程教学平台,信息化教学的数字校园,能为师生提供更具个性化的数据支撑和服务。在校园启用“大数据”,通过便捷的多元的采集方式,建立基础数据平台并和教学资源,提供标准数据接口,统一采集、认证,集中存储,开放计算,最终消除“信息孤岛”。
大数据分析与挖掘,需要通过数据分析来发现现状,并且通过模型与预测分析技术来对改善进行预测与优化。数据分析能力的高低,决定了价值发现过程的好坏与成败。
国内市场巨大,许多企业(无论是互联网的新锐还是传统的企业)都在讨论这个,也有实际的需求并愿意为此付钱,但是比较零碎尚不系统化。目前对数据需求最强烈的行业依此是:金融机构(从基金到银行到保险公司到P2P公司),以广告投放及电商为代表的互联网企业等
数据沉淀
目前有四大方式获取数据
网络爬虫,用Python及Go等开发了自己的爬虫平台,对几十个网站进行每日抓取获得相关信息
Wi-Fi接入方案,我们自己开发了一套完整的软硬件方案,优势是超高的ROI(投资回报比),且免费提供给物业管理者,帮助其实现靠网费赚钱以及推广费赚钱。在与其协商的基础上,获得用户数据。这主要是OpenWRT的开发以及一些智能硬件和客户端的开发。
提供一些图像方面的API,进行图片搜索及人脸搜索,满足客户在图像处理和图像识别方面的一些需求。开发主要用到一些Machine Learning和Deep Learning的算法,使用C++/Open CV/Matlab等。
数据服务需求方自行提供。
数据挖掘
利用数据分析产生深层次有价值的理解。基于以上各种方式获得的数据,我们可以做最简单的统计分析、用户及品牌理解、用户画像、各品牌或各产品型号之间的关系等等,了解现在和历史并争取预测未来。
常用的工具是Python/R/SPSS等,算法包括最简单的统计、稍微复杂一些的Machine Learning、现在被捧上天的Deep Learning以及Collaborative Filtering等等。
前景
国内企业,不论是国企还是民企,真正在业务决策中以数据分析结果为依据的,主要集中在银行,保险,电信和电商等几个行业。以IT预算最充沛,人员能力最强的银行为例,目前主要是大型银行在导入数据分析。
加米谷大数据开发9月零基础班,已开课可试听;大数据分析10月零基础班,预报名中...
相关: