Skip to main content

Data Analysis 数据分析

David LiuAbout 4 min

Data Analysis 数据分析

Set 集合

  • 集合 set
  • 子集 subset
  • 元素 element/member
  • 有限集合 finite set
  • 无限集合 infinite set
  • 空集 empty set
  • 非空集 nonempty set
  • 交集 intersection
  • 并集 union
  • 互斥 disjoint/ mutually exclusive
  • 容斥原理 inclusion-exclusion principle
  • 韦恩图 Venn diagram

集合:是指具有某种特定性质的具体的或抽象的对象汇总而成的集体。其中,构成集合的这些对象则称为该集合的元素。例如,全中国人的集合,它的元素就是每一个中国人。

有限集合:元素个数有限的集合,如{0,2, 4, 6, 8}这个集合

无限集合:元素个数无限,如整数集合。

空集:元素个数为 0 的集合,符号为∅。

非空集合:元素个数大于0 个的集合。

子集:设S,T 是两个集合,如果S 的所有元素都属于T ,则称S 是T 的子集。例如,集合{2,8} 是集合{0,2,8,9}的子集。空集是所有集合的子集。

交集:由属于A 且属于B 的相同元素组成的集合,记作A∩B

并集:由所有属于集合A 或属于集合 B 的元素所组成的集合,记作 A∪B

互斥:两个集合没有相同的元素,成为互斥集合。

容斥原理:|A ∪ B| = |A| + |B| − |A ∩ B |

Graph 图表

  • 频率 frequency/count
  • 相对频率 relative frequency
  • 条形图 bar graph
  • 分段的条形图 segmented bar graph
  • 直方图,柱状图 histogram
  • 散点图 scatterplot
  • 单变量的 univariate
  • 双变量/二变量 bivariate

频率:数据出现的次数。

相对频率:数据频率除以总数的结果。

frequency distribution 频率分布图

bar graph 条形图

segmented bar graph 分段条形图

histogram 直方图/柱状图

Circle Graphs 饼状图

scatter-plot 散点图

Time Plots 时间曲线图

Permutations & Combinations 排列组合

factorial 阶乘

0!=1!=1n!=i=1ni, 0!=1!=1\\ n!=\prod_{i=1}^ni,

阶乘的因数

Arrangement/Permutation 排列

Pnm=Anm=n!(nm)!P_n^m=A_n^m=\frac{n!}{(n-m)!}

Combination 组合

Cnm=AnmAm=n!m!(nm)!=CnnmC_n^m=\frac{A_n^m}{A_m}=\frac{n!}{m!(n−m)!}=C^{n-m}_n

C(n,m)=C(n,nm)=C(n1,m1)+C(n1,m)C(n,m)=C(n,n-m)=C(n-1,m-1)+C(n-1,m)

Statistics 统计

  • 平均数
  • 中位数
  • 分位数
  • 均值
  • 方差
  • 极差 range 最大最小之差

arithmetic mean (average) 算术平均值

E=1ni=1naiE=\frac{1}{n}\sum\limits_{i=1}^n{a_i}

median 中位数

  • The median is the middle value of a list when the numbers are in order.
  • 先排序,后取中。
  • 偶数个元素时,是中间两元素的平均数

mode 众数

  • The mode of a list of numbers is the number that occurs most frequently in the list.
  • A list of numbers may have more than one mode.

quartile 四分位数

四分位数定义: 统计学中位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

min Q1 Q2 Q3 max

|---------------- [------|-------] ------------|

全部员工有80人,把全部分成四等分 0~25%, 25~50%, 50~75%, 75~100%

expectation 期望

  • 期望就是算术平均值。

deviation 偏差

di=aiEd_i=a_i-E

standard deviation 标准差

s=D=1ni=1n(aiE)2s=D=\sqrt{\frac{1}{n}\sum\limits_{i=1}^n({a_i}-E)^2}

variance 方差

D=1ni=1n(aiE)2D=\frac{1}{n}\sum\limits_{i=1}^n({a_i}-E)^2

range 范围

  • 最大数减去最小数所得的差就是该组数据的范围

Probability 概率

  • 几率 odds
  • 概率试验 probability experiment
  • 概率 probability
  • 随机试验 random experiment
  • 样本空间 sample space
  • 事件 event
  • 等可能 equally likely
  • 随机抽样 random selection
  • 互相排斥的 mutually exclusive
  • 相互独立事件 independent event
  • 分布曲线 distribution curve
  • 密度曲线 density curve
  • 频率曲线 frequency curve
  • 随机变量 random variable
  • 概率分布 probability distribution
  • 标准正态分布 standard normal distribution

standard normal distribution 正态分布

3sigma原理

1sigma区间:65.26%

2sigma区间:95.44%

2sigma区间:99.74%

independent event 相互独立事件

A+B-AB

应用

  • 单利 simple interest
  • 复利 compound interest
  • 利率 interest rate

单利和复利是两种计算利息的方法。

单利是指一笔资金无论存期多长利率多少,只有本金计算利息,而以前各期利息在下一个利息周期内都不计算利息的计息方法。

复利是指在计算利息时,某一计息周期的利息是由本金加上先前周期所积累利息总额来计算的计息方式,简单讲就是每一个周期结束后的本息和, 是下一个计算周期的本金, 即 “利滚利”。

  • 成本 cost
  • 收入 revenue
  • 净亏损 net loss
  • 利润 profit
  • 折扣 discount
  • 标价 list price
  • 购买价 purchasing price
  • 销售价 sale price
  • 零售价 retail price
  • 批发价 wholesale price
  • 涨价 markup
  • 预付款,现付款 down payment
  • 人均 per capita

在价格问题中,要熟记每一个单词的含义。这一部分考题所涉及到的都是生活常识。比如:revenue = cost + profit,retail price = wholesale price + markup 等。

一年计息m次,n年末本息和为(1+im)nm(1+\frac{i}{m})^{nm}