标签:hadoop

Eclipse连接Hadoop分析的三种方式

Hadoop一般都部署在linux平台上,想让Hadoop执行我们写好的程序,首先需要在本地写好程序打包,然后上传到liunx,最后通过指定命令执行打包好的程序;一次两次还可以,如果进行频繁的调试是很不方便的,所有最好是能直接通过IDE直接连接Hadoop;下面总结了三种方式连接Hadoop执行分析: 软件版本 操作系统:win7 64位 Eclipse:Indigo Service Release 2 Java:1.7 Hadoop:2.5.1 Linux:Centos7 一、利用Hadoop的本地模式,在Eclipse中执行本地数据计算 写好的程序在本地测试完之前再提交到远程服务器上进行数…

阅读全文 »

Hadoop的伪分布式模式

接着上一篇:Hadoop的版本选择和单机模式 下面来看一下hadoop2.5.1的伪分布式模式 安装ssh 在伪分布式模式下工作时必须启动守护进程,而启动守护进程的前提是已经成功安装SSH。hadoop并不严格区分伪分布式模式和全分布式模式,它只是启动集群主机集的守护进程;SSH-ing到各个主机并启动一个守护进程。在伪分布式模式下,主机就是本地计算机,因而伪分布式模式可视作全分布式模式的一个特例。需要指出的是,必须确保用户能够SSH到本地主机,并不需要输入密码就可以登录。 然后基于口令创建一个新SSH密钥,以启用无密码登录 测试: 如果成功无需输入密码 修改配置文件 core-site.xm…

阅读全文 »

Hadoop的版本选择和单机模式

选择 Hadoop的发展中出现了2个分支,分别是1.x和2.x Hadoop2.x相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更: 1.HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性; 2.MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resource Negotiator)。 鉴于2.x比起1.x存在的优势,准备使用2.x进行测…

阅读全文 »