当前位置：文档之家› 葡萄酒论文

葡萄酒论文

葡萄酒的分析及等级划分

[摘要]由于经济全球化越来越广泛，西方文化的逐渐渗入中国的东方文化，葡萄酒越来越被大众接受，其营养价值和保健价值也逐渐受到人们重视，葡萄酒认证和质量评价逐渐得到关注，因此我们想要对其进行研究。我们寻找到两组各10个评酒员对红白葡萄酒的评分数据以及葡萄酒和酿酒葡萄的理化指标来对葡萄酒进行分析及等级划分。首先先验证各组评分数据是否满足正态分布，再对红白葡萄酒的两组数据分别采用配对T检验检验两组数据是否有显著性差异，再根据方差判断哪组数据较为可靠。由于同一等级物品，其特性相近，因此用可靠的那组评分数据综合酿酒葡萄的理化指标采用聚类分析，对酿酒葡萄进行等级划分，各分为四个等级，用每个等级的中所有葡萄酒平均得分作为该等级的酿酒葡萄分数。查阅资料，分析可知酿酒葡萄的理化指标影响了葡萄酒的理化指标，因此考虑建立模型，描述一个葡萄酒的理化指标与酿酒葡萄的多个指标之间的关系，通过这种联系分析酿酒葡萄指标对葡萄酒理化指标的影响。最后用葡萄酒的得分作为葡萄酒的质量标准，综合剔除指标后的酿酒葡萄和葡萄酒的理化指标进行回归分析，并观察回归性是否显著。以此判断葡萄酒质量是否可以运用这两种指标来评价。

【关键词】正态检验；配对T检验；聚类分析；逐步回归分析

1．引言

葡萄酒中含有丰富的营养物质,至今多达 600 种以上的物质被测定出来。葡萄具有的营养和医疗作用很早就被认识, 葡萄酒因其特殊的营养价值和较好的保健效果，越来越受到广大消费者的欢迎。在此形势下，葡萄酒认证和质量评价得到关注。葡萄酒的质量，即葡萄酒优秀的程度, 它是产品的一种特性,且决定购买者的可接受性。因此,葡萄酒能够满足人类需求的各种特性的总和即构成了它的质量。葡萄酒认证保证了市场中酒的质量，同时保护了消费者的利益。葡萄酒的认证包括理化性质分析、感官评价、物理化学指标、卫生指标等手段。质量评价是认证中的重要阶段，它有益于提高葡萄酒的酿造工艺，同时为市场定位提供决策信息。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系。葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒的质量。葡萄酒的每一项理化指标是其质量的单一体现,而感官指标则是葡萄酒质量的综合概括,换句话说,一个理化指标、卫生指标都合格的葡萄酒未必是高质量的葡萄酒。在今后的一个时期，我们需要做的是从葡萄酒的特点出发，围绕葡萄和葡萄酒理化指标、感官指标等众多因素对葡萄酒质量的联系进行研究，尽可能确定较为合理的葡萄酒质量评价标准，既保证市场中酒的质量，保护消费者利益，又能为市场定位提供决策信息，达到经济效益的目的，从而实现双赢。

2．模型假设

2.1假设品酒员给出的评价能够真实客观地反应葡萄酒的情况

2.2葡萄酒的质量只与酿酒葡萄有关，忽略人为干扰、酿造过程中的环境差别,如温度、湿度等因素

2.3每个评酒员对不同葡萄酒样品的评分是不受主观因素影响的，即各评分结果相互独立

2.4假设数据来源真实有效，数据的误差皆在可接受范围之内

3．符号说明

j i A , 表示第j 个品酒员对第i 个葡萄酒样品的评分

d 度量酿酒葡萄与得分的距离

ij x

作为第i 组样品j 的得分

4．分析两组评酒员的评价结果有无显著性差异，哪一组结果更可信

4.1数据预处理

对附件一的数据进行观察，可以看出葡萄酒样品的评价项目满分为100分，分别由10个品酒员进行评分，评分标准主要有外观分析（15分）、香气分析（30分）、口感分析（44分）以及平衡/整体评价（11分），各占一部分比例，红白葡萄酒的两组数据表，发现有几个数据属于异常值和残缺值，应先做出处理

4.1.1残缺值的处理

第一组红葡萄酒4号品酒员对20号葡萄酒样品的色调评价分数为空值，因为可以粗略认为不同品酒师对同一葡萄酒样品评分相差不大，所以采用均值替换法来处理数据 4.1.2异常数据的处理

第一组白葡萄酒7号品酒员对3号葡萄酒样品的持久性评分为77，超过其上限8分，9号品酒员对8号葡萄酒样品的持久性评价为16，超过上限8，显然不合理，因此属于异常数据，采用均值替换法处理该数据。

4.2对原始数据的处理

每个品酒员对同一葡萄酒样品的外观分析、香气分析、口感分析、平衡/整体评价都有一个评分，把这些评分相加作为该品酒员对该葡萄酒样品的得分，再把这10个品酒员对该葡萄酒样品的评分取平均值，作为该葡萄酒样品的最终得分。

4.3各葡萄酒样品样品评分数据的概率分布的确定

由于要对数据分别进行显著差异性检验，因而必须先检验数据是否服从正态分布，才能确定要采用参数检验还是非参数检验来进行显著差异性的检验。首先，先对每一个葡萄酒样本中的10个品酒员的分数进行平均，取该平均值为葡萄酒样本的分数，即：

然后，利用SPSS 软件分别画出这四组数据的频率分布直方图和Q-Q 图进行正态分布检验。频率分布直方图下图所示：

从频率直方图可以看出数据基本符合正态分布

Q-Q图：一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看Q-Q 图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用Q-Q图还可获得样本偏度和峰度的粗略信息。

由图可知数据基本与图中的45度对角线吻合，且右边的图形偏差不会过大，因此符合正态分布。

单样本K-S 检验：可以将一个变量的实际频数分布与正态分布、均匀分布、泊松分布、指数分布进行比较。其零假设0H 为样本来自的总体与指定的理论分布无显著差异。SPSS 在统计中将计算K-S 的Z 统计量，并依据K-S 分布表（小样本）或正态分布表（大样本）给出对应的相伴概率值。如果相伴概率小于或等于用户的显著性水平α，则应拒绝零假设

0H ，认为样本来自的总体与指定的分布有显著差异；如果相伴概率值大于显著性水平，则

不能拒绝零假设0H ，认为样本来自的总体与指定的分布无显著差异。

K-S 检验表

表中最后一行数据均大于0.05，因此四组数据符合正态分布。综上，采用参数检验来验证差异性显著性检验。

ij X 作为第i 组样品j 的得分。本题中数据成对，即对同一葡萄酒样品测出一对数据，我

们知道一对与另一对数据之间的差异是由于各种因素引起的，并且由于各个样品间存在差异，不能把两组各样品的得分当作来自同分布的观测值，并且对于每对数据而言，它们是同一样品不同品酒员测得的结果，因此不是两个独立的随机变量的观察值。但是

.2.1j j j x x D -=（i =1,2， ,27）可以作为来自一个样本的样本值，反映了同一样品两组

间的评分差异，故采用配对t 检验。但是使用配对t 检验的前提条件是j D 服从正态分布，所以要先对j D 进行Kolmogorov-Smirnov 检验。然后利用方差分析来判断哪组更稳定。组间方差越大表明越不可信。运用SPSS 软件进行分析，结果如下表所示：

表中最后一行数据均大于0.05，因此符合正态分布

4.4分别对红葡萄酒和白葡萄酒的两组测试数据进行配对t检验

运用SPSS软件运行，结果如下表所示：

表一（两组红葡萄酒均值方差表）

表二（红葡萄酒配对T检验）

表四（白葡萄酒配对T检验）

由表二、四中可以看出最后一列即P 均小于0.05，因此可以认为两组数据有显著性差异，从表一、三种可以看出两组数据的均值和方差，可以认为方差较小的评分标准较为可靠，因此第二组红葡萄酒以及第二组白葡萄酒得分数据较为可靠。

5．根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级

5.1数据预处理

5.1.1异常值的处理

观察附件二，由于蓝色为一级指标，红色为二级指标，项目下有几列数据，表示该项目测试几次，由于是对同一样品进行测量，因此测出的数据应该相差不大，但是酿酒葡萄理化指标中的白葡萄百粒质量的三次测试值分别为225.8,224.6,2226.1，第三次测试结果明显比前两次大很多，必定为异常值，因此采用均值替代法处理，取前两次的平均值为该次的结果。

5.1.2对处理后的数据进行再处理

有表中数据可知，有的数据进行多次测量，为了方便进行计算，只取一级理化指标计算算，对于进行多次测量的指标取平均值作为该样本的最终指标。公式为：

X X X X n

i i

∑==

++=1

5.1.3数据的标准化

观察附件二，由于数据各指标的量化单位不同，数据波动范围不同，为了消除这些不利影响，应对理化指标数据进行标准化处理。假设有n 个样本，m 个指标，则每个变量可表示为ij x ，均值

∑==n

i ij j x n x 1

标准方差

j s =则标准化后

()

*0ij j

x x x s

s -=

≠

利用SPSS 软件可以直接对数据进行标准化。

5.2聚类分析

聚类分析就是分析如何对样品或者变量进行量化分类的问题，聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程，聚类分析的目标就是在相似的基础上收集数据来分类。由于聚类分析是将数据分类到不同的类或者簇的一个过程，因此同一个簇中的对象具有较大的相似性，而不同簇之间具有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。其主要有系统

聚类法和K-均值聚类法。本题采用系统聚类法进行研究。

5.2.1系统聚类法的基本原理

首先将一定数量的样本或指标各自看成一类，然后根据样本或指标的亲疏程度，将亲疏程度最高的两类合并，然后考虑合并后的类与其他类之间的亲疏程度，再进行合并。重复这一过程，直到将所有的样本或指标合并为一类。系统聚类分为Q 型聚类和R 型聚类两种：Q 型聚类是对样本进行聚类，它使具有相似特征的样本聚集在一起，使差异性大的样本分离开来；R 型聚类是对变量进行聚类，它使差异性大的变量分离开来，相似的变量聚集在一起，这样就可以在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数、降

低变量维度的目的。

5.2.2衡量亲疏程度的距离

令

x 表示第i 个样品的第j 个指标， ij d

表示第i 个样品与第j 个样品之间的距离，最

常见最直观的计算距离的方法是：明考斯基距离(Minkowski )

()1/1q

q ij ik jk k d x x =??=-??

∑

本题采用欧式距离进行计算。即取2=q ，

()()1/2

212p

ij ik jk k d x x =??=-????

∑ 即为欧氏距离

5.2.3、对酿酒葡萄的理化指标以及评分表的数据进行聚类分析

由四已经得到第二组品酒员的评分数据较为可靠，因此采用第二组品酒员的数据。由于酿酒葡萄与品酒员的评分即葡萄酒质量具有一定的关系，因此采用聚类分析，利用酿酒葡萄的30个理化指标对其分成若干类。运行SPSS 软件进行聚类分析，结果如下所示：

表一（红葡萄酒聚类）

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

葡萄样品12 12 ─┐

葡萄样品18 18 ─┼───┐

葡萄样品6 6 ─┘├───┐

葡萄样品7 7 ─────┘├─┐

葡萄样品4 4 ───┬─┐││

葡萄样品27 27 ───┘├───┘│

葡萄样品22 22 ─────┘├───┐

葡萄样品17 17 ─┬─┐││

葡萄样品24 24 ─┘├───┐││

葡萄样品5 5 ───┘├───┘├─┐

葡萄样品15 15 ───────┘││

葡萄样品13 13 ───┬─────────┐││

葡萄样品19 19 ───┘├─┘├───────────┐

葡萄样品16 16 ─────────────┘││

葡萄样品20 20 ───────┬───────┐││

葡萄样品26 26 ───────┘├─┘│

葡萄样品25 25 ───────────────┘│

葡萄样品3 3 ───────────────┬─────────────┼─────┐

葡萄样品21 21 ───────────────┘││

葡萄样品2 2 ─────────┬─────┐││

葡萄样品9 9 ─────────┘├─────────┐││

葡萄样品23 23 ───────────────┘├───┘├─────────────┐

葡萄样品8 8 ─────────┬───────────┐│││

葡萄样品14 14 ─────────┘├───┘││

葡萄样品1 1 ─────────────────────┘││

葡萄样品10 10 ───────────────────────────────────┘│

葡萄样品11 11 ─────────────────────────────────────────────────┘

由表中数据粗略认为分成4类较好，设这四类酿酒葡萄等级分别为A、B、C、D，其中第一类：1、2、8、9、14、23，第二类：3、4、5、6、7、12、13、15、16、17、18、19、20、21、22、24、25、26、27，第三类：10，第四类：11；取各类中样品数据平均值作为该

表二（白葡萄酒聚类）

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R

A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+ 葡萄样品5 5 ─┬───────────┐

葡萄样品20 20 ─┘├─┐

葡萄样品23 23 ───────┬───┐││

葡萄样品26 26 ───────┘├─┘│

葡萄样品9 9 ─────────┬─┘├───┐

葡萄样品28 28 ─────────┘││

葡萄样品4 4 ─────┬───┐││

葡萄样品14 14 ─────┘├─────┘├─────┐

葡萄样品21 21 ─────────┘││

葡萄样品10 10 ───┬───────┐│├─┐

葡萄样品24 24 ───┘├───────┘││

葡萄样品12 12 ───────────┘││

葡萄样品17 17 ─────────────┬───────────┘│

葡萄样品22 22 ─────────────┘│

葡萄样品8 8 ───────┬───────────┐│

葡萄样品11 11 ───────┘├─┐│

葡萄样品2 2 ───────┬─┐││├─┐

葡萄样品25 25 ───────┘├─────────┘├─────┤│

葡萄样品19 19 ─────────┘│││

葡萄样品16 16 ─────────────────────┘│├───────────────────┐

葡萄样品3 3 ───────────────────────────┘││

葡萄样品1 1 ─────────┬───────────┐││

葡萄样品13 13 ─────────┘│││

葡萄样品6 6 ───┬───┐├───────┘│

葡萄样品18 18 ───┘├───────────┐││

葡萄样品7 7 ───────┘├─┘│

葡萄样品15 15 ───────────────────┘│

葡萄样品27 27 ─────────────────────────────────────────────────┘

同理，把白葡萄酒样品分为4类，等级分别为A、B、C、D，其中第一类：1、6、7、13、15、18，第二类：2、4、5、8、9、10、11、12、14、16、17、19、20、21、22、23、24、25、26、28，第三类：3，第四类：27。取各类中样品数据平均值作为该类得分，则有第一类：76.1，第二类：75.6，第三类：77，第四类：76.8。等级分类如下表所示：

6．分析酿酒葡萄与葡萄酒的理化指标之间的联系。

6.1数据预处理

6.1.1异常值的检测

结合5.1处理后的酿酒葡萄理化指标数据，对葡萄酒理化指标进行观测，未发现异常值。 6.1.2对处理后的数据进行再处理

由表中数据可知，有的数据进行了多次测量，为了方便进行计算，只取一级理化指标来计算，对于进行多次测量的指标取平均值作为该样本的最终结果。公式为：

X X X X n

i i

∑==

++=1

6.1.3数据标准化处理

同5.1.3一样，对数据进行标准化处理 6.1.4指标筛选

由于葡萄酒酿酒葡萄涉及的指标过多，而样本量较小，将过多的酿酒葡萄指标纳入考虑范围后可能会产生较大误差，因此考虑先对指标进行筛选。考虑进行因子分析，在进行降维处理时，SPSS 软件提示相关系数矩阵为非正定矩阵，无法给出KMO 值，提示如下所示： Correlation Matrix(a)a. This matrix is not positive definite.而解决方案分别为增加样本或者剔除某些强相关的变量，但是本题因样本已给定，显然无法继续增加样本，因此考虑进行各指标间的相关系数，看是否有强相关的变量存在可以剔除，直至剔除到可以显示KMO 检验为止。考虑相关系数大于0.7的指标，相关系数大于0.7的如下所示：

观察附件二，可以发现，可溶性固物质=固酸比指标*可滴定酸指标，

再观察上表中相关系数大于0.7的指标，把同时与多个相关的指标剔除，直至KMO检验成功为止。剔除了指标a*(+红；-绿)、干物质含量、可溶性固形物、总酚、DPPH自由基1/IC50，得出KMO检验如下表所示：

KMO小于0.5，因此不必继续进行因子分析。白葡萄酒酿酒指标同理可得。相关系数表如下：

表所示：

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .125

Bartlett's Test of Sphericity Approx. Chi-Square 432.617

df 276

Sig. .000

KMO值小于0.5，此时不必进行因子分析。

最后用剔除后的酿酒葡萄指标与葡萄酒指标进行分析。

6.2逐步回归分析

在自变量很多时，其中有的因素可能对因变量的影响不大，而且自变量之间可能不是相互独立，可能有种种关系。在这种情况下，可采用逐步回归分析，进行自变量的筛选，这样建立的多元回归模型预测效果会更好。逐步回归分析，首先要建立因变量Y与自变量X之间的总回归方程，再对总的方程以及每一个自变量进行假设检验。当总的方程不显著时，表明该多元回归方程线性关系不成立；而当某一个自变量对Y影响不显著时，应该把它剔除，重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量，并建立“最优回归方程”。

查阅资料，分析可知酿酒葡萄的理化指标影响了葡萄酒的理化指标，它们之间并不是因果关系，因此考虑建立模型，描述一个葡萄酒的理化指标与酿酒葡萄的多个指标之间的关系，通过这种联系分析酿酒葡萄指标对葡萄酒理化指标的影响。自变量X为酿酒葡萄理化指标，因变量Y为葡萄酒理化指标。结果如下：

由表可得：224114.21.034x 11-E 080.6x y -+=，且表中最后一列概率小于0.05，即回归性极为显著，同理可得其他指标关系。

11142355.0411

.00.485x 11-577.5x x E y +++-= 2214113232.0214.0526.00.622x 11-530.0x x x E y -+++-= 4114357.00.621x 12-480.5x E y ++-=

125462115283.0348.0971.0012.1111.10.578x 10-696.1x x x x x E y +++--+-= 91116268

.0349.00.704x 11-422.4x x E y +++-= 5132547200.0213.0273.00.706x -11-329.3x x x E y --+-= 4258434.00.680x - 11-E 104.8-x y -=

56159352.0369.00.587x 11-175.2x x E y +-+-=

同理可得白葡萄酒的关系，如下所示：

22111391

.00.586x 16-500.3x E y ++= 15122495

.00.709x 15-995.1x E y ++-= 62014123282.0391.0402.00.262x 16-276.2x x x E y +-++-= 315125414.0474.00.605x 15-099.1x x E y +++-= 15216311

.00.533x 14-552.2x E y -+=

19218278.0646.016-782.6x x E y ---=

7.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量

7.1分析葡萄酒理化指标与葡萄酒质量的关系

由6的分析与求解，我们得出葡萄酒的每个理化指标与酿酒葡萄的某些理化指标之间具有比较强的相关性，从各个回归方程可以得出具体关系。我们采用与6相同的方法进行指标

剔除单宁、总酚、L 、酒总黄酮等指标，然后综合酿酒葡萄指标与葡萄酒得分进行逐步回归分析。我们采用第二组十个评酒员的平均得分来作为每个葡萄酒样品的质量得分。采用多元逐步回归分析，得出结果如下：

红葡萄酒：5186111259.0325.0446.0661.011833.7y x x x E z -+-+--=

21207502.0539.016-328.5x x E y +--=

由表中最后一列的显著水平可知回归性极为显著。同理可得白葡萄酒：

841312173.0129.0258

.00.003x -14-036.1y y x E z ---= 因此认为可以认为可以利用剔除一些多余理化指标之后的酿酒葡萄和葡萄酒指标与葡萄酒

得分进行拟合，即可综合酿酒葡萄的理化指标及葡萄酒的理化指标进行质量的评价。参考文献

[1] Jiawei Han ，Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社，2012,30-41.

[2] 朱建平.应用多元统计分析[M].北京：科学出版社.2012,62-170.