分类:大数据

Eclipse连接Hadoop分析的三种方式

Hadoop一般都部署在linux平台上,想让Hadoop执行我们写好的程序,首先需要在本地写好程序打包,然后上传到liunx,最后通过指定命令执行打包好的程序;一次两次还可以,如果进行频繁的调试是很不方便的,所有最好是能直接通过IDE直接连接Hadoop;下面总结了三种方式连接Hadoop执行分析: 软件版本 操作系统:win7 64位 Eclipse:Indigo Service Release 2 Java:1.7 Hadoop:2.5.1 Linux:Centos7 一、利用Hadoop的本地模式,在Eclipse中执行本地数据计算 写好的程序在本地测试完之前再提交到远程服务器上进行数…

阅读全文 »

WebHDFS使用

WebHDFS提供HDFS的RESTful接口,可通过此接口进行HDFS文件操作。 配置 需要在hdfs-site.xml打开WebHDFS开关,此开关默认打开。 使用 连接NameNode的50070端口进行文件操作。 比如:查看知道目录文件列表 结果: 更多查看官方文档:https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

阅读全文 »

Thrift代理Hbase

使用HBase的2种方式: 1.直接使用HBase客户端API,这样就限制了只能使用java语言 2.使用一些能够将请求转换成API的代理,这些代理将原始Java API包装成其他协议,这样客户端可以使用API提供的任意外部语言来编写程序。外部API实现了专门基于java的服务,而这种服务能够在内部使用由HTable客户端提供的API。 HBase本身对代理模式的支持也很广泛,比如支持的类型有:REST、Thrift、Avro等 关于代理的模式,可以看一张网上的架构图: 这里主要介绍一下Thrift作为HBase的代理对外提供服务,主要是Thrift在性能上的优势以及对各种主流语言的支持 1….

阅读全文 »

Eclipse远程连接Hbase

安装Hadoop和Hbase hadoop和hbase版本的选择以及安装,参考之前的文章: Hadoop的版本选择和单机模式:http://codingo.xyz/index.php/2016/08/16/hadoop-stand-alone/ Hadoop的伪分布式模式:http://codingo.xyz/index.php/2016/08/16/hadoop_false_distribute/ Hbase版本选择和单机模式入门:http://codingo.xyz/index.php/2016/08/17/hbase_standalone/ Hbase的伪分布式模式:http://cod…

阅读全文 »

Hbase的伪分布式模式

摘要 伪分布式模式是在一台主机上运行所有进程的模式。此配置仅仅是协助Hbase用于测试和原型,不要在生产环境中使用此配置,也不要用此配置做HBase的性能比较 启动HDFS hbase的伪分布式模式下需要用到hdfs,所有我们需要先启动hdfs,可以参考上一篇:Hadoop的伪分布式模式,按照文中的操作,我们可以正确启动hdfs,并且可以使用jps查看进程: 并且可以通过hadoo fs 查看当前hdfs中的文件: 以上如果都没有问题的话,说明hdfs已经正常启动 更改hbase配置文件 主要编辑 hbase-site.xml 配置文件: Hbase使用HDFS的/hbase目录作为根目录,H…

阅读全文 »

Hbase版本选择和单机模式入门

摘要 HBase – Hadoop Database, 是一个高可靠性的、高性能的、可伸缩的、面向列存储的开源分布式存储系统。 版本选择 因为Hbase依赖于hadoop的hdfs,所有hadoop版本的选择也影响到hbase版本的选择, 基于Hadoop的版本选择和单机模式中hadoop的版本为:hadoop-2.5.1, 以及官网文档:https://hbase.apache.org/book.html中jdk版本对hbase的支持,如图: 综合考虑最后选择的版本是:Hbase1.2.2 安装 环境变量 文件末尾添加 生效环境变量 查看版本 表示已经安装成功 和hadoop一样,也有三种启…

阅读全文 »

Hadoop的伪分布式模式

接着上一篇:Hadoop的版本选择和单机模式 下面来看一下hadoop2.5.1的伪分布式模式 安装ssh 在伪分布式模式下工作时必须启动守护进程,而启动守护进程的前提是已经成功安装SSH。hadoop并不严格区分伪分布式模式和全分布式模式,它只是启动集群主机集的守护进程;SSH-ing到各个主机并启动一个守护进程。在伪分布式模式下,主机就是本地计算机,因而伪分布式模式可视作全分布式模式的一个特例。需要指出的是,必须确保用户能够SSH到本地主机,并不需要输入密码就可以登录。 然后基于口令创建一个新SSH密钥,以启用无密码登录 测试: 如果成功无需输入密码 修改配置文件 core-site.xm…

阅读全文 »

Hadoop的版本选择和单机模式

选择 Hadoop的发展中出现了2个分支,分别是1.x和2.x Hadoop2.x相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更: 1.HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性; 2.MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resource Negotiator)。 鉴于2.x比起1.x存在的优势,准备使用2.x进行测…

阅读全文 »