数据挖掘工程师
通过对海量数据进行挖掘解决问题
是成为大数据专家的基础
薪资范围:18k-35k/月
0
套
课程
0
h
课时
学习人数
第一阶段
第二阶段
第三阶段
Hadoop实战精讲(一)
HOT
本课程主要包含以下内容: 1.hosts-hostname-ip修改-启动模式切换-dns 2.Big data介绍 3.hadoop安装及三个模块 4.hadoop配置方式及伪分布式
Hadoop实战精讲(二)
HOT
本课程主要包含以下内容: 1.scp-rsync-ssh root配置 2.自定义脚本xsync 3.自定义脚本xcall-完全分布式集群配置 4.hadoop类库和配置文件抽取-2nn配置 5.hadoop本地目录修改-属性查看
Hadoop实战精讲(三)
HOT
本课程主要讲解了以下知识点: 1.脚本分析 2.HDFS常用操作 3.hdfs FileSystem API 4.hdfs FileSystem API-write 5.hdfs FileSystem API-read-filestatus
Hadoop实战精讲(四)
HOT
本课程主要介绍了以下内容: 1.文件删除-递归访问文件系统-eclipse插件、 2.剖析文件写入过程、 3.自定义机架感知、 4.HDFS架构、 5.剖析文件读取、 6.Win7运行Hadoop程序
Hadoop实战精讲(五)
HOT
本课程主要讲解了以下知识点: 1.滚动编辑日志-融合镜像 2.写文件一致性-distcp-scp远程间复制 3.数据完成性-校验和 4.校验和-压缩编解码器 5.ubuntu搭建eclipse环境-codec测试 6.hadoop本地库解决-deflate压缩算法编程 7.deflate-gzip-bzip2-lzo综合评测
Hadoop实战精讲(六)
HOT
本课程主要讲述了以下知识点: 1.LZO项目编译安装 2.maven安装-maven本地仓库服务器搭建 3.maven编译hadoop-lzo项目-集成到hadoop项目测试通过 4.snappy安装-综合性测试-性能评测 5.使用codePool优化压缩加压缩过程 6.maven使用
Hadoop 实战精讲(七)
HOT
本课程主要讲述了以下知识点: 1.eclipse-maven使用 2.hadoop项目依赖引入-sequencefile 3.sequencefile-压缩类型-文件格式-同步点-position 4.mapfile-格式-索引间隔-最近点查找 5.mapfile变形-arrayfile-setfile-mapfile修复seq文件 6.Writable串行化
Hadoop 实战精讲(八)
HOT
本课程主要讲解了以下知识点: 1.Job提交过程分析 2.Job作业打包-提交-ubuntu运行 3.Job本地模式运行总结 4.Job在集群上运行-JVM的远程调试-环境变量设置 5.YarnRunner作业提交过程分析考查
Hadoop 实战精讲(九)
HOT
本课程主要讲解了以下知识点: 1.Job提交过程分析 2.Job作业打包-提交-ubuntu运行 3.Job本地模式运行总结 4.Job在集群上运行-JVM的远程调试-环境变量设置 5.YarnRunner作业提交过程分析考查
Hadoop 实战精讲(十)
HOT
本课程主要讲解了以下知识点: 1.ipc通信原理 2.ipcdemo通信数据流分析 3.Map过程分析-combiner-partition 4.MR logs 5.计数器 6.block设置-最小块-切片设置-切片算法
Hadoop 实战精讲(十一)
HOT
本课程主要讲解了以下知识点: 1.切片文件处理 2.分区函数-数据倾斜 3.MapWC编程Combiner实现 4.inputformat-CombineFile-InputFormat 5.自定义inputformat-recordreader-whole 6.inputformat-KV-NLine-Seq-SeqAsText 7.inputformat-DB
ZooKeeper入门到精通
HOT
讲解Leader的选举过程,nc命令的使用,包括tcp网络传输、文本聊天和端口扫描。zkCli命令的使用,zk的核心概念和专业术语。 讲解zk核心类库的使用和编程技巧,重点演示在zk观察者中事件回调机制的使用以及one time方式的注意事项。
Ambari 入门
HOT
主要内容包括: 什么是hadoop集群管理工具? 介绍ambari, ambari下载、安装、配置、启动以及注意事项。 ambari常见问题解答。 ambariwebui向导方式的使用。
Flume入门:海量日志收集
HOT
本课程主要介绍了以下内容: 1.Flume简介和架构 2.Flume体验-配置-seq生成 3.Source-Sink-Channle分析源代码 4.Source-Sink-Channle通过调试手段查看运行流程 5.Flume配置Netcat收集日志-组件组装过程查看 6.Flume配制File通道 7.Flume-avro-hop-fanout-fanou2-exec
Flume使用进阶
HOT
本课程讲解了以下内容: 1.SpooldirSource 2.udp源-tcp源-multcp源-http源 3.exec调错-http源-hdfs block手动合成 4.hive Sink集成 5.hbase async集成-channel 6.HiveSink错误解决-spillableMemory通道 7.Sink容灾-SinkGroup 8.Sink负载均衡-拦截器 9.自定义拦截器
Kafka 分布式消息系统
HOT
Kafka是当下流行的队列,可以说是从数据采集到大数据计算承上启下的重要环节,本课程详细讲解了它的架构,kafka在大数据的项目中几乎都会涉及到,是很常用的队列。
Hive安装与配置
HOT
Hive是使用sql进行计算的hadoop框架,工作中最常用到 的部分,也是面试的重点,此课程介绍了Hive的特点,Hive架构与组件,Hive安装和配置,Hive建库与建表等内容。
Hive数据库与表的操作
HOT
本课程主要讲解了Hive数据库与表的操作。包括:Hive的常用命令,client通过jdbc连接操纵hive数据仓库,Hive配置仓库位置,指定位置创建库、修改数据库、创建表,分区表的查询模式、分区表的命令等内容。
Hive高级操作
HOT
本课程主要讲解了Hive高级操作,包括以下知识点: 创建分区表,手动添加分区表,导出数据到本地和到HDFS目录, 查询、使用数学函数、聚合、函数,内外链接,试图、索引等。
Hive高级运维:调优、压缩、自定义函数
HOT
本课程主要讲解了 Hive高级运维:调优、压缩、自定义函数等知识点。
HBase内功修炼实战
HOT
HBase是做大数据必须要掌握的一项技术,但很多人对于关系型数据库比较了解,但对于列式数据库不是很了解,也用不好。而列式数据库HBase对于大数据的重要性不言而喻!
支持考试
Scala精通与实战编程
HOT
Scala运行环境的安装与搭建 Scala语法基础与编程模式 Scala操作符重载与控制结构 Scala异常处理与函数。
免费
征服Spark一入门与提高篇
HOT
本课程全程实战演练,讲解Spark核心概念和技术原理 解读Spark与Hadoop的优势对比 从0起步进行Spark的两种安装方式与集群的构建 讲解Spark的核心概念Resilient Distributed Dataset. 详细演示Maven的工作原理以及本地Maven仓库服务器的搭建与配置 结合书籍同步讲解Spark集群的部署模式以及shell的应用 讲解Spark编程与运行。
征服Spark 二 Spark项目编译运行篇
HOT
sbt(simplebuild tool)以及弃用的原因 使用maven对Spark的项目进行编译和运行 演示addFile的操作原理和Spark的整体概述 实战演练maven的pom文件的配置 详细讲解eclipse下maven的使用与spark项目的构建以及仓库的配置。
征服Spark 三 Spark中数据的加载与保存
HOT
讲解spark中分别使用java和scala语言创建sparkContext对象, 介绍SparkContext中几种元数据,master、appName、version等. 介绍并演示addFile文件的意图和常见错误. 通过案例展示flatMap的RDD扁平化处理机制. 讲解csv文件的spark数据处理。
大数据离线处理 Spark SQL
HOT
本课程主要介绍了以下内容: 1.Spark SQL 概述 2.Spark SQL 整体架构 3.Spark SQL 读取文件 4.Spark SQL 从不同数据源读取数据 5.Spark SQL 中的UDF 6.Spark SQL 中的SQL讲解 7.Spark SQL 项目实战
优质课程
Spark Streaming
HOT
本课程主要介绍了以下内容: 1.SparkStreaming 总体介绍 2.使用SparkStreaming监控HDFS目录 3.使用SparkStreaming处理Socket数据 4.实现SparkStreaming的自定义数据接收器 5.SparkStreaming整合Kafka数据源,消费Kafka数据源 6.讲解SparkStreaming中常见的操作、设计模式及性能优化 7.SparkStreaming实现有状态数据统计项目实战介绍及整体架构 8.数据可视化之借助SparingBoot快速搭建数据可视化框架 9.模拟网络点击事件,将事件信息发送到Kafka的topic 10.SparkStreaming从Kafka消费数据做有状态的数据更新,并借助SparkSql中的DataFrame将更细的数据覆写到关系型数据库Mysql中
Mahout机器学习
HOT
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。本课程包括:Mahout数据挖掘工具及Hadoop实现推荐系统的综合实战,涉及到MapReduce、Pig和Mahout的综合实战。
优质课程
电商网站KPI统计
HOT
本课程主要讲解了电商网站KPI实战项目,该项目通过采用MapReduce计算模型结合mahout机器学习来实现用户相似度、商品关联度和降维分析等协同过滤算法。利用该系统,直接促成商业交易额大幅度提升。