大数据技术到底有哪些

大数据需要特殊的技术,主要包括大规模并行处理(MPP)数据库、数据挖掘网络、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据技术分为整体技术和关键技术两个方面。

大数据系统

1.整体技术

整体技术主要有数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。

2.关键技术

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

(1)大数据采集技术:数据采集是通过RFID射频技术、传感器以及移动互联网等方式获得的各种类型的结构化及非结构化的海量数据。大数据采集一般分为大数据智能感知层和基础支撑层: 大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统。实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输信号转换监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。

基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的区络传输与压缩技术,大数据隐私保护技术等。

(2)大数据预处理技术:大数据预处理主要完成对已接收数据的抽取、清洗等操作。

抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。

清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤"去噪"从而提取出有效数据。

(3)大数据存储及管理技术:大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。

(4)大数据分析及挖掘技术:数据分析及挖掘技术是大数据的核心技术。主要是在现有的数据上进行基于各种预测和分析的计算,从而起到预测的效果,满足一些高别数据分析的需求。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机实际数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。

(5)数据展现和应用:大数据技术能够将隐藏于海量数据中的信息挖掘出来,从而是高各个领域的运行效率。在我国,大数据重点应用于以下三大领域:商业智能、政决策和公共服务。