当前位置： Oracle DBA培训网-优技培训 >> Hadoop大数据 > Hadoop培训教程 >

Hadoop大数据培训：怎么配置hadoop

Hadoop大数据培训：怎么配置hadoop，本节就开始安装并配置一个简单的Hadoop伪分布式环境。首先下载Hadoop的稳定版Hadoop-1.0.4.tar.gz，这里使用cnnic.cn镜像地址下载，使用以下命令进行操作：

wget http:// mirrors.cnnic.cn/apache/Hadoop/common/stable/Hadoop-1.0.4.tar.gz

然后进行解压：

tar –xzvf Hadoop-1.0.4.tar.gz

解压之后建议将Hadoop的bin目录配置到PATH环境变量，然后进到Hadoop的conf目录对Hadoop进行伪分布式配置，配置步骤如下。

(1)配置core-site.xml

这个配置是Hadoop的核心配置，至少需要配置HDFS的地址及端口号，这里使用以下最简单的配置方法：

<conf?iguration>

     <property>

        <name>fs.default.name</name>

        <value>hdfs:// localhost:9000</value>

     </property>

</conf?iguration>

fs.default.name用于指定NameNode的IP地址和端口号，localhost就是HDFS NameNode的地址，9000是HDFS的NameNode RPC交互端口。

(2)配置hdfs-site.xml

这里主要配置HDFS的相关属性参数，简单配置如下：

<conf?iguration>

    <property>

       <name>dfs.replication</name>

       <value>1</value>

    </property>

<property>

       <name>dfs.name.dir</name>

       <value>/home/nuoline/hdfs-f?ilesystem/name</value>

</property>

<property>

       <name>dfs.data.dir</name>

       <value>/home/nuoline/hdfs-f?ilesystem/data</value>

</property>

</conf?iguration>

dfs.replication用于指定HDFS中每个Block块被复制的次数，起到数据冗余备份的作用。在典型的生产系统中，这个数常被设置为3，这里是伪分布式，只有一个节点，因此设置为1。dfs.name.dir用于配置HDFS的NameNode的元数据，以逗号隔开，HDFS会把元数据冗余复制到这些目录下。dfs.data.dir用于配置HDFS的DataNode的数据目录，以逗号“,”隔开，HDFS会把数据存在这些目录下。这两个配置默认都在tmp目录下，建议用户在配置时使用自己创建的目录即可。

(3)配置map-site.xml

配置map-site.xml的代码如下：

<conf?iguration>

     <property>

         <name>mapred.job.tracker</name>

         <value>localhost:9001</value>

     </property>

</conf?iguration>

mapred.job.tracker是MapReduce Jobtracker的IP地址及端口号，localhost就是MapReduce Jobtracker的地址，9001是MapReduce Jobtracker RPC交互端口。

以上仅仅是对伪分布式的一个简单配置，主要用于测试环境的搭建，生成环境下的配置参数详解可见后续章节的内容介绍。

(4)配置hadoop-env.sh

hadoop-env.sh用于配置集群特有的变量值，这里至少需要配置JAVA_HOME环境变量。

推荐机构MORE+

技术沙龙MORE+

标签错误:

我要参加技术沙龙

Oracle公开课MORE+

Oracle技术MORE+