您当前的位置:首页>论文资料>基于Hadoop分布式计算架构的海量数据分析

基于Hadoop分布式计算架构的海量数据分析

资料类别:论文资料

文档格式:PDF电子版

文件大小:141.19 KB

资料语言:中文

更新时间:2024-12-20 17:04:51



推荐标签:

内容简介

基于Hadoop分布式计算架构的海量数据分析 数字技术与应用
基于Hadoop分布式计算架构的海量数据分析
王散善
(断江鸿程计算机系统有限公司
浙江杭州
310005)
.计算机技术·
要1随着互联网的发展,分析处理海量数据成为各公司组织急待解决的间题。Hadoop分布式系统做靠廉价的PC集群提供可靠摘
Latin语合,成为实用,高效的海景数据处理平台。
的并行计算服务,其子项目Pig立足Map-Reduce并行计算框架,提供类SQL功能的Pig
本文对Pig平台系统架构进行说明,介绍Pig平台引肇前端和引擎后端的功能,并结合实例闹述Pig平台处理PigLatin脚本过程中产生逐辑计划,物理计划及Map-Reduce计划的具体流程。
[关键字]Hadoop Map-Reduce Pig[中图分类号]TP393
数据分析
[文献标识码]A
1前言
随着信息时代的到束,公司、科研等机构的数据量程指数趋势增长,这种情况在网络公司中显得尤为突出,如雅虎,淘宝等。如何快速从网站H志分析出用户最关心间题,如何从用户消费记录中发据最受欢迎产品,如何从海景实验数据中查找异常数据,这些都成为垂待解决的问题,由于分布式系统在存和处理海量数据的过程中响应迅速,具备良好的伸缩性和可靠性高等特点,分布式数据库作为海量数据分析平自有着优良的表现。但由于分布式数
用户将难以负担其品费的实施、维护费用,分布式数据库并未被一般用户广泛接受。
Pig Ls in脚本
人的的包
引擎前端逐撑计划
启路
Hadoop物理计务 MapReduce计划
Pig平台
Hadoop Cluster 行平台
体地物理计划 RAr
图1Pig平台架构图
6
数字技术与应用万方数据
[文章编号]10079416(2010)070006-02
Hadooplil作为由Apache款件基金会研发的开放源码系统,基于Map-Reducel"计算框架提供各种服务,包括分布式文件系统、分布式数据库、分布式数据仓库等,受到越来越多用户的关注。用户通过搭建康价的 Hadoop集群,便可应用Map及Reduce计算过程完成海量数据的处理和分析任务。然而 Map-Reduce作为--种解决常见并行任务的处理框架,对海景数据处理分析并无特殊支持,用户在具体使用过程中会遇到不少图难。首先,用户需要为常用分析过程如 GROUP、FILTER等手动编写代码,代码开发周期长且无法保证功能正确,代码难以维护、重用,其次,复条的海数部分析、处理过程难以分解为多个Map、Reduce阶段任务,警通用户难以处理复条任务。再者,Hadoop 对用户手动编写的Map、Reduce处理过程难以有效优化,运行效率不能得到保证。
雅虎考虑到分布式数据库昂贵及 Hadoop系统难以使用等缺点,于2006研发了自己的海量数据分析平台Pig3.4i,旨在为用户提供一个高效、实用的海量数据分析工具。随后雅虎将Pig捐献给Apache,现在Pig平台成为lladoop下的一个开源子项目。Pig平台提供类SQL功能的命令式编程语言Pig
逐辑计烟
LOAD1 FILTER3
name age) Knameagg
JOIN 4 + GROUPS +
Latin5.6,并基于Hadoop的MapReduce计算报架提供快捷,可靠的并行计算服务。本文接下来介绍Pig平台系统架构并结合实例说明Pig平台处理PigLatin脚本的过程。
2Pig平台系统架构
Pig平台以三种方式提供服务,分别为交互式模式、批处理模式及嵌入式模式。交互式模式用户以命令行的方式调用服务,批处理模式用户可直接执行PigLatin脚本,嵌入式模式用户可以特Pig语句写进Java程序中直接执行。
Pig平台架构图如图1所示,其中图上部为三种不同调用方式对应的PigLatin输人,中闻部分为Pig平台组成,包括引率前端和引擎下端,下部为PigLatin执行平台。引季前端完成PigLatin语句的分析、语法检测、逻辑检测代码优化等任务,输出结果为与该语句对应的逻辑计划。此阶段Pig平台将 PigLatin命令行语句或PigLatin脚本或嵌人在Java程序中的PigLatin代码生成统一格式的逻辑计划,消除因不间Pig调用方式输入造成的差别。随后,逻辑计划被移交给引肇后端执行。引睾后端负责将逐辑计划期译为特定平台的可执行计划。目前Pig平
LOAD2
(user,brand)
(name age,user,brand)
(group(name,ge,user,brand)
FOREACH6 STORE7
(group,count)(group,count)
图2PigLatin脚本对应逻辑计划
上一章:数据的完整性在数据库应用系统中的设计与实施 下一章:数据库设计在网站管理系统中的应用

相关文章

基于hadoop平台的分布式数据挖掘系统的设计探讨 基于Hadoop的高频电力负荷监测数据存储研究 YD/T 4030-2022 计算存储分离架构的分布式存储测试方法 YD/T 4029-2022 计算存储分离架构的分布式存储技术要求 基于线指数特征的海量恒星光谱聚类分析研究 基于单片机的高精度海量数据采集与存储系统 基于Hadoop的非结构化数据管理在石油行业中的研究与实现 基于云计算的城市智能燃气网架构