HA高可用是Hadoop2.x才开始引入的机制，是为了解决Hadoop的单点故障问题。主要有两种部署方式，一种是NFS（Network File System）方式，另外一种是QJM（Quorum Journal Manager）方式。用得较多的是QJM方式，稳定性更好。实际操作中，生产环境的Hadoop集群搭建一般都会做HA部署。

2 使用

配置客户端访问集群

3 问题

大数据基础组件 hadoop

Hadoop部署

2022-01-25 246c4cd5e9120863ab7086a903ed561b 99+ 2 m 0.4 k

RDD，DataFrame，Dataset

https://blog.knoldus.com/spark-rdd-vs-dataframes/

https://blog.csdn.net/hellozhxy/article/details/82660610

https://www.cnblogs.com/lestatzhang/p/10611320.html#Spark_16

https://www.jianshu.com/p/77811ae29fdd

https://zhuanlan.zhihu.com/p/379578271

https://spark.apache.org/docs/3.2.0/sql-programming-guide.html#content

1 DataFrame 和 RDDs 应该如何选择？

DataFrame 和 RDDs 最主要的区别在于一个面向的是结构化数据，一个面向的是非结构化数据

如果你的数据是结构化的 (如 RDBMS 中的数据) 或者半结构化的 (如日志)，出于性能上的考虑，应优先使用 DataFrame。
如果你的数据是非结构化的 (比如流媒体或者字符流)，则使用 RDDs，

2 为什么出现Dataset？

1.相比DataFrame，Dataset提供了编译时类型检查，对于分布式程序来讲，提交一次作业太费劲了（要编译、打包、上传、运行），到提交到集群运行时才发现错误，实在是想骂人，这也是引入Dataset的一个重要原因。

2.RDD转换DataFrame后不可逆，但RDD转换Dataset是可逆的（这也是Dataset产生的原因）

注意：

The Dataset API is available in Scala and Java. Python does not have the support for the Dataset API. But due to Python’s dynamic nature, many of the benefits of the Dataset API are already available (i.e. you can access the field of a row by name naturally row.columnName).

大数据基础组件 spark 使用

RDD、DataFrame、DataSet

2022-01-25 73241b5f95136af39e6cd1b31353cbc7 99+ 5 m 0.7 k

数仓建模

关系建模和维度建模是两种数据仓库的建模技术。关系建模由Bill Inmon所倡导，维度建模由Ralph Kimball所倡导。目前主流为维度建模。

https://zhuanlan.zhihu.com/p/362991213

1.关系建模（范式建模）

1.1 范式

1 目的

降低数据的冗余性

2 目前业界范式

第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。逐个遵循，一般要求遵循第一，第二，第三范式，也就是三范式。

https://blog.csdn.net/Dream_angel_Z/article/details/45175621

1.2 建模

1 建模

关系建模将复杂的数据抽象为两个概念——实体和关系（实体表，关系表），并使用规范化（三范式）的方式表示出来

2 特点

关系模型严格遵循第三范式（3NF），数据冗余程度低，数据的一致性容易得到保证。

由于数据分布于众多的表中，查询会相对复杂，在大数据的场景下，查询效率相对较低。

2.维度建模

https://www.jianshu.com/p/daab50a23c56

https://cloud.tencent.com/developer/article/1772027

2.1 事实表和维度表

1 事实表

存储业务事实，事实表中的每行数据代表一个业务事件（下单、支付、退款、评价等）。

事实表的特征：

内容相对的窄：列数较少（主要是外键id和度量值）

非常的大

经常发生变化，每天会新增加很多。

分类：事务型事实表，周期型快照事实表，累积型快照事实表

2 维度表

维度表：一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。例如：用户、商品、日期、地区等。

维表的特征：

维表的范围很宽（具有多个属性、列比较多）

跟事实表相比，行数相对较小：通常< 10万条

内容相对固定：编码表

2.2 维度模型分类

在维度建模的基础上又分为三种模型：星型模型、雪花模型、星座模型。

星座模型是多个星型模型交织

2.3 建模

1 建模

维度模型面向业务，将业务用事实表和维度表呈现出来。

步骤：

https://www.cnblogs.com/suheng01/p/13522677.html

选择业务过程→声明粒度→确认维度→确认事实

2 特点

维度模型以数据分析作为出发点，不遵循三范式，故数据存在一定的冗余。

表结构简单，故查询简单，查询效率较高。

大数据数据仓库数仓离线数仓

数仓建模

2022-01-24 f612a3cb8926d7a20f7a2570f145f1de 99+ fast 0.0 k

pretrain

https://huggingface.co/docs/transformers/task_summary Language Modeling

https://huggingface.co/blog/how-to-train

NLP 小帮手

pretrain

2022-01-20 1f88d0eb62ee147bee8ff37b97f5bdab 99+ fast 0.1 k

Spark 数据倾斜

https://blog.csdn.net/kaede1209/article/details/81145560

https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

发生在两个过程：

数据源数据不均匀
shuffle过程中key的分布不均
1. 单个rdd中进行聚合的时候key分布不均
2. 多个rdd进行join过程中key的不均匀

大数据基础组件 spark 优化

Spark 数据倾斜

2022-01-20 a41c1b8f3fea617b9d17d429a14ceb43 99+ fast 0.0 k

数仓架构

https://notomato.blog.csdn.net/article/details/110790403

离线数据仓库到实时数据仓库

https://blog.csdn.net/fuyipingwml1976124/article/details/105571193

大数据数据仓库数仓实时数仓

数仓架构

2022-01-19 69c46be3db09712ec651532ee7bdf919 99+ fast 0.0 k

nvidia-smi 查看GPU使用率很高但是看不到进程

https://blog.csdn.net/gostman/article/details/107456597

机器学习深度学习框架深度学习框架

nvidia-smi 查看GPU使用率很高但是看不到进程

2022-01-19 dfd456161c6a73a2b627dc04717f15ad 99+ fast 0.1 k

TextGCN Graph Convolutional Networks for Text Classification

https://arxiv.org/abs/1809.05679

1.build a single text graph for a corpus based on word co-occurrence and document word relations,

2.then learn a Text Graph Convolutional Network (Text GCN) for the corpus. Our Text GCN is initialized with one-hot representation for word and document, it then jointly learns the embeddings for both words and documents, as supervised by the known class labels for documents.

GNN NLP GCN 文本分类

TextGCN

2022-01-19 73bd08cfafb536ce948fe047bd7c14b5 99+ a minute 0.2 k