当前位置:文档之家› 七天搞定SAS系列

七天搞定SAS系列

七天搞定SAS系列
七天搞定SAS系列

七天搞定SAS系列

七天搞定SAS系列学习笔记。参考书籍:The Little SAS Book

七天搞定SAS(一):数据的导入、数据结构

标题有些噱头,不过这里的重点是: speak SAS in 7 days。也就是说,知识是现成的,我这里只是要学会如何讲这门语言,而不是如何边学SAS边学模型。顺便发现我最近喜欢写连载了,自从西藏回来后.....

之所以下定决定学SAS,是因为周围的人都在用SAS。为了和同事的沟通更有效率,还是多学一门语言吧。R再灵活,毕竟还是只有少数人能直接读懂。理论上语言是不应该成为障碍的~就像外语一样,多学一点总是好的,至少出门不发怵是不是?

最后一根稻草则是施老师传给我的一个link:

https://www.doczj.com/doc/0f12570149.html,/articles/bi/3-career-secrets-for-data-scientist s-1101712/,据说有数据分析师的职业秘笈...我就忍不住去看了看。其中一句话还是蛮有启发的:

如果有人问你要学什么工具,是SAS,R,EXCEL,SQL,SPSS还是?直接回答:所有。

这个答案一方面霸气,一方面也是,何必被工具束缚呢?

这东西宜突击不宜拖延,所以还是集中搞定吧。七天应该是个不错的时间段。

大致分配如下:

1. 熟悉SAS的数据结构,如基本的向量,数据集,数组;熟悉基本的数据类型,如文本,数字。

2. 熟悉基本的数据输入与输出。

3. 熟悉基本的逻辑语句:循环,判断

4. 熟悉基本的数据操作:筛选行列,筛选或计算变量,合并数据集,计算基本统计量,转置

5. 熟悉基本的文本操作函数

6. 熟悉基本的计量模型函数

7. 熟悉基本的macro编写,局部变量与全局变量

其实这大概也是按照我常用的R里面完成的任务来罗列的。基本计划是完成就可以大致了解SAS的语法了,其他的高级功能现用现学吧。

书籍方面,中文的抢了同事的一本《SAS编程与数据挖掘商业案例》,英文的找了一本「Applied Econometrics Using The SAS System」和「The Little SAS Book」,先这么看着吧。

后知后觉的补充:其实这一系列笔记都是先写再发布的,主要是方便我调整顺序什么的。事实证明绝大多数时间我在看(或者更直接的,抄)「The Little SAS Book」这本书,姚老

师的《SAS 编程与数据挖掘商业案例》简单看了一晚,作为对于SAS 语法的预热。最后那本「Applied Econometrics Using The SAS System 」更多是看具体模型的用法了,不是熟悉语法的问题了。例子都是第一本little book 上的,很好用。 本系列连载文章:

SAS 的数据类型

首先,sas 的编程大概就两块:Data 和PROC ,这个倒是蛮清晰的划分。然后目前关注data 部分。

SAS 的数据类型还真的只有两种:数字和文本。那么看来日期就要存成文本型了。变量名称后面加$代表文本型。

SAS 的数据读入

手动输入这种就不考虑了,先是怎么从本地文件读入。比如我们有文本文件如下:

1 2 3 4 5 6 Lucky 2.3 1.9 . 3.0 Spot 4.6 2.5 3.1 .5 Tubs 7.1 . . 3.8 Hop 4.5 3.2 1.9 2.6 Noisy 3.8 1.3 1.8 1.5 Winner 5.7 . . .

然后SAS里面就可以用

1 2 3 4 5 6 7 8 9 10 * Create a SAS data set named toads;

* Read the data file ToadJump.dat using list input; DATA toads;

INFILE ’c:\MyRawData\ToadJump.dat’;

INPUT ToadName $ Weight Jump1 Jump2 Jump3; RUN;

* Print the data to make sure the file was read correctly; PROC PRINT DATA = toads;

TITLE ’SAS Data Set Toads’;

RUN;

这样就建立了一个名为toads的临时数据集,然后读入外部文件ToadJump.dat,然后告诉SAS有四个变量,其中第一个是文本型。这样就OK了。缺失值用一个点.标记。

偶尔数据没那么规范,比如长成:

1 2 3 4 5 ----+----1----+----2----+----3----+----4 Columbia Peaches 35 67 1 10 2 1 Plains Peanuts 210 2 5 0 2

Gilroy Garlics 151035 12 11 7 6 Sacramento Tomatoes 124 85 15 4 9 1

那么就要有点类似正则表达式的感觉,告诉SAS更多的参数:

1 2 3 4 5 6 7 * Create a SAS data set named sales;

* Read the data file OnionRing.dat using column input;

DATA sales;

INFILE ’c:\MyRawData\OnionRing.dat’;

INPUT VisitingTeam $ 1-20 ConcessionSales 21-24 BleacherSales 25-28 OurHits 29-31 TheirHits 32-34 OurRuns 35-37 TheirRuns 38-40; RUN;

8 9

10

11 * Print the data to make sure the file was read correctly; PROC PRINT DATA = sales;

TITLE ’SAS Data Set Sales’;

RUN;

这样SAS就可以正确的读数据了—类似于excel的导入文本-固定宽度分隔。再不规则的话,比如有日期型的:

1 2 3 4 5 6 Alicia Grossman 13 c 10-28-2008 7.8 6.5 7.2 8.0 7.9 Matthew Lee 9 D 10-30-2008 6.5 5.9 6.8 6.0 8.1 Elizabeth Garcia 10 C 10-29-2008 8.9 7.9 8.5 9.0 8.8 Lori Newcombe 6 D 10-30-2008 6.7 5.6 4.9 5.2 6.1 Jose Martinez 7 d 10-31-2008 8.9 9.510.0 9.7 9.0 Brian Williams 11 C 10-29-2008 7.8 8.4 8.5 7.9 8.0

那么接下来就是:

1 2 3 4 5 6 7 8 9

10

11 * Create a SAS data set named contest;

* Read the file Pumpkin.dat using formatted input;

DATA contest;

INFILE ’c:\MyRawData\Pumpkin.dat’;

INPUT Name $16. Age 3. +1 Type $1. +1 Date MMDDYY10. (Score1 Score2 Score3 Score4 Score5) (4.1);

RUN;

* Print the data set to make sure the file was read correctly; PROC PRINT DATA = contest;

TITLE ’Pumpkin Carving Contest’;

RUN;

就是说,name是一个长度为16的字符;age是长度为3、无小数点的数字;+1跳过空列;type是长度为1的文本;date是MMDDYY长度为10的日期;score1-5是长度为4,小数部分为1位的数字。

还有若干更复杂的,可以遇到时侯回来查手册。此外还有@可用来直接指定开始读的列。鉴于我接触的数据一般比较规范,这些就不细看了。

此外SAS可以指定开始读的行数,读取的行数等。

1 2 3 4 DATA icecream;

INFILE ’c:\MyRawData\IceCreamSales.dat’ FIRSTOBS = 3; INPUT Flavor $ 1-9 Location BoxesSold;

RUN;

SAS读取CSV数据

以我最关心的CSV文件为例,如下数据:

1 2 3 4 5 Lupine Lights,12/3/2007,45,63,70,

Awesome Octaves,12/15/2007,17,28,44,12 "Stop, Drop, and Rock-N-Roll",1/5/2008,34,62,77,91 The Silveyville Jazz Quartet,1/18/2008,38,30,42,43 Catalina Converts,1/31/2008,56,,65,34

只需要:

1 2 3 4 5 6 7 DATA music;

INFILE ’c:\MyRawData\Bands.csv’ DLM = ’,’ DSD MISSOVER;

INPUT BandName :$30. GigDate :MMDDYY10. EightPM NinePM TenPM ElevenPM; RUN;

PROC PRINT DATA = music;

TITLE ’Customers at Each Gig’;

RUN;

其实,貌似更简单的办法是:

1 DATA music;

2 3 4 5 6 7 INFILE ’c:\MyRawData\Bands.csv’ DLM = ’,’ DSD MISSOVER;

INPUT BandName :$30. GigDate :MMDDYY10. EightPM NinePM TenPM ElevenPM; RUN;

PROC PRINT DATA = music;

TITLE ’Customers at Each Gig’;

RUN;

好吧,import果然更直接一点...excel文件也可以如法炮制。

1 2 3 4 5 6 * Read an Excel spreadsheet using PROC IMPORT;

PROC IMPORT DATAFILE = 'c:\MyExcelFiles\OnionRing.xls' DBMS=XLS OUT = sales; RUN;

PROC PRINT DATA = sales;

TITLE 'SAS Data Set Read From Excel File';

RUN;

如果需要SAS永久存着这些数据,则需要先指定libname:

1 2 3 4 5 6 LIBNAME plants ’c:\MySASLib’;

DATA plants.magnolia;

INFILE ’c:\MyRawData\Mag.dat’;

INPUT ScientificName $ 1-14 CommonName $ 16-32 MaximumHeight AgeBloom Type $ Color $;

RUN;

后期就可以直接调用啦:

1 2 3 LIBNAME example ’c:\MySASLib’; PROC PRINT DATA = example.magnolia; TITLE ’Magnolias’;

4 RUN;

SAS 读取Teradata数据

最后就是从teradata里面读数据,可以利用teradata fastexport特性:

1 2 3 4 libname tra Teradata user=terauser pw=XXXXXX server=boom; proc freq data=tra.big(dbsliceparm=all);

table x1-x3;

run;

等价于:

1 2 3 4 5 proc sql;

connect to teradata(user=terauser password=XXXXXX server=boom dbsliceparm=all); select * from connection to teradata

(select * from big);

quit;

暂时没有fastload的需求,就先这样吧。可以参见SAS的TD手册:

https://www.doczj.com/doc/0f12570149.html,/resources/papers/teradata.pdf

七天搞定SAS(二):基本操作(判断、运算、基本函数)

继续,今天开始注重变量操作。

SAS生成新变量

SAS支持基本的加减乘除,值得一提的是它的**代表指数,而不是^。

1 2 3 4 5 6 7 8 9

10

11

12

13 * Modify homegarden data set with assignment statements; DATA homegarden;

INFILE 'c:\MyRawData\Garden.dat';

INPUT Name $ 1-7 Tomato Zucchini Peas Grapes;

Zone = 14;

Type = 'home';

Zucchini = Zucchini * 10;

Total = Tomato + Zucchini + Peas + Grapes;

PerTom = (Tomato / Total) * 100;

RUN;

PROC PRINT DATA = homegarden;

TITLE 'Home Gardening Survey';

RUN;

但是如果有缺失值的话,SAS的加法会生成缺失值而不是自动按0处理。为了避免这一点,应该调用sum()函数而不是直接写+。

SAS的函数调用很简单:

1 2 3 AvgScore = MEAN(Scr1, Scr2, Scr3, Scr4, Scr5); DayEntered = DAY(Date);

Type = UPCASE(Type);

函数有文本类、数字类、日期类等等。

SAS文本类函数

?ANYALNUM(arg,start):返回第一次出现任意数字或字母的位置,可选开始位置start。?ANYALPHA(arg,start):返回第一次出现任意字母的位置,可选开始位置start。

?ANYDIGIT(arg,start):返回第一次出现任意数字的位置,可选开始位置start。

?ANYSPACE(arg,start):返回第一次出现任意空白的位置,可选开始位置start。

?CAT(arg-1,arg-2,...arg-n):连接字符串,留下头尾空白。

?CATS(arg-1,arg-2,...arg-n):连接字符串,删除头尾空白。

?CATX('separator-string', arg-1,arg-2,...arg-n):连接字符串,删除头尾空白并用指定标点连接。

?COMPRESS(arg, 'char'):移除字符串中的空格和可选字符。

?INDEX(arg, 'string') :返回指定字符在变量中的位置。

?LEFT(arg) :字符串左对齐。

?LENGTH(arg):返回字符串长度,不考虑尾部空格。

?PROPCASE(arg) :首字母大写。

?SUBSTR(arg,position,n):从字符串中提取指定开始位置指定长度字符。?TRANSLATE(source,to-1, from-1,...to-n,from-n):替换字符。

?TRANWRD(source,from,to) :替换字符串。

?TRIM(arg):删除尾部空白。

?UPCASE(arg):替换成大写。

SAS数值函数

?INT(arg):返回整数。

?LOG(arg):自然对数。

?LOG10(arg) :10为底对数。

?MAX(arg-1,arg-2,...arg-n) :最大值

?MEAN(arg-1,arg-2,...arg-n) :均值

?MIN(arg-1,arg-2,...arg-n) :最小值

?N(arg-1,arg-2,...arg-n) :非缺失值个数

?NMISS(arg-1,arg-2,...arg-n) :缺失值个数。

?ROUND(arg, round-off-unit) :保留几位小数。

?SUM(arg-1,arg-2,...arg-n):求和。

SAS日期函数

?DATEJUL(julian-date) :标准julian日期到SAS日期。

?DAY(date):返回「日」。

?MDY(month,day,year) :年月日到SAS日期。

?MONTH(date) :返回「月」。

?QTR(date):返回季度。

?TODAY():今日

?WEEKDAY(date):返回周几(周日为1)。

?YEAR(date):返回「年」。

?YRDIF(start-date,end- date,’ACTUAL’):返回相差年份。

SAS中判断语句

如果,则:

1 IF then: IF Model = 'Mustang' THEN Make = 'Ford';

还可以执行多项命令,需要嵌套do;可以用and和or:

1 2 3 4 5 IF Year IF Model = 'Corvette' OR Model = 'Camaro' THEN Make = 'Chevy'; IF Model = 'Miata' THEN DO;

Make = 'Mazda';

Seats = 2;

END;

还可以if else:

1 2 IF Cost = . THEN CostGroup = 'missing';

ELSE IF Cost ELSE IF Cost ELSE CostGroup = 'high';

用if可以选择数据子集:

1 IF Sex = 'f'; IF Sex = 'm' THEN DELETE;

SAS中保留和累加

比如要求累加值(等价于R里面的cumsum),需要:

1 2 3 4 5 6 7 8 9 10 * Using RETAIN and sum statements to find most runs and total runs; DATA gamestats;

INFILE 'c:\MyRawData\Games.dat';

INPUT Month 1 Day 3-4 Team $ 6-25 Hits 27-28 Runs 30-31; RETAIN MaxRuns;

MaxRuns = MAX(MaxRuns, Runs);

RunsToDate + Runs;

RUN;

PROC PRINT DATA = gamestats;

TITLE "Season's Record to Date";

11 RUN;

看一眼最终数据:

累加效果出来了~还有一栏是迄今最大值。这也是我觉得sas 和R 很不同的一点:sas 是指针式操作,一行行往下读;而在R 里面我们更多是向量或者矩阵式运算,感觉还是有所区别的...

SAS 的数组操作

这个就更有点矩阵的味道了,不过还是偶尔感觉怪怪的...感觉数据整理和操纵方面,SAS 还是比不上R 灵活... 例子为替换为缺失值:

1 2 3 4 5 6 7 8 9 10 11 12 * Change all 9s to missing values; DATA songs;

INFILE 'c:\MyRawData\WBRK.dat';

INPUT City $ 1-15 Age domk wj hwow simbh kt aomm libm tr filp ttr; ARRAY song (10) domk wj hwow simbh kt aomm libm tr filp ttr; DO i = 1 TO 10;

IF song(i) = 9 THEN song(i) = .; END; RUN;

PROC PRINT DATA = songs; TITLE 'WBRK Song Survey'; RUN;

这样9就全部替换为缺失值了。把后面10列认为是一个数组,可以直接操作。

SAS还有若干变量名的快捷方式,暂不赘述了...

七天搞定SAS(三):基本模块调用(格式、计数、概要统计、排序等)

搞定基本的函数之后,开始鼓捣SAS里面的模型。也就是说,要开始写PROC了。说实话,越学SAS,越觉得SAS像Stata...无论是从输出的样式,还是语法。好不习惯没有()的模型调用呀。若是说SAS和Stata的区别,怕只是Stata更侧重于计量模型而SAS则是服务于大多数统计模型吧。

PROC的基本内容:CONTENT

先是一个最基本的PROC:content,可以显示数据集的主要特性。比如,

R

1 2 LIBNAME tropical 'c:\MySASLib';

PROC CONTENTS DATA = tropical.banana;

这里主要是两个声明:TITLE和FOOTNOTE。前者输出时候会产生一个标题,后者会产生尾注。用法也是比较直接的:

R

1 2 3 TITLE ”Here’s another title”;

TITLE ’Here’’s another title’; FOOTNOTE3 ’This is the third footnote’;

最后还有一个很像Stata的LABEL声明:R

1 2 LABEL ReceiveDate = ’Date order was received’ShipDate = ’Date merchandise was shipped’;

可以变量加注释。其实R里面给变量加注释是一件非常麻烦的事情,只有少数几个包可以搞定,还非常不值的。一般说来,我尽量在变量命名的时候长一点,这样直接可以读懂;再就是重建一个新的表,存储变量名和label。

SAS PROC求子集:WHERE

如果要在PROC里面先求子集的话,可以直接调用WHERE。感觉这里和SQL的思路比较像。用法也算是比较简单(SAS里面的用法都不是很麻烦,除了某些模型):

R

1 2 3 4 5 PROC PRINT DATA = 'c:\MySASLib\style'; WHERE Genre = 'Impressionism';

TITLE 'Major Impressionist Painters'; FOOTNOTE 'F = France N = Netherlands U = US'; RUN;

这样最终得到的结果就是:R

1 2 3 4 5 6 7 Major Impressionist Painters 1

Obs Name Genre Origin

1 Mary Cassatt Impressionism U

3 Edgar Degas Impressionism F

5 Claude Monet Impressionism F

6 Pierre Auguste Renoir Impressionism F

F = France N = Netherlands U = US

SAS PROC 数据进行排序:SORT

排序就更简单了,直接PROC SORT就可以了。R

1 2 3 4 5 6 7 8 9 10 DATA marine;

INFILE 'c:\MyRawData\Lengths.dat';

INPUT Name $ Family $ Length @@;

RUN;

* Sort the data;

PROC SORT DATA = marine OUT = seasort NODUPKEY; BY Family DESCENDING Length;

PROC PRINT DATA = seasort;

TITLE 'Whales and Sharks';

RUN;

这样数据就按照Family、Length(递减)排序了。R

1 2 3 4 5 6 7 8 9

10

11

12 Whales and Sharks 1 Obs Name Family Length

1 humpback 50.0

2 whale shark 40.0

3 basking shark 30.0

4 mako shark 12.0

5 dwarf shark 0.5

6 blue whale 100.0

7 sperm whale 60.0

8 gray whale 50.0

9 killer whale 30.0

10 beluga whale 15.0

SAS PROC 输出数据:PRINT

最简单的数据输出怕就是PRINT了,顾名思义,直接打印数据出来。这里可以进行便啦的选择,还就可以选择统计量:

R

1 2 3 4 5 6 7 8 9

10

11

12

13 DATA sales;

INFILE 'c:\MyRawData\Candy.dat';

INPUT Name $ 1-11 Class @15 DateReturned MMDDYY10. CandyType $ Quantity;

Profit = Quantity * 1.25;

PROC SORT DATA = sales;

BY Class;

PROC PRINT DATA = sales;

BY Class;

SUM Profit;

V AR Name DateReturned CandyType Profit;

TITLE 'Candy Sales for Field Trip by Class';

RUN;

得到的结果为:R

1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18 Candy Sales for Field Trip by Class 1

-------------------------------- Class=14 --------------------------------- Date Candy

Obs Name Returned Type Profit

1 Nathan 1761

2 CD 23.75

2 Matthew 17612 CD 17.50

3 Claire 17613 CD 13.75

4 Chris 17616 CD 7.50

5 Stephen 1761

6 CD 12.50

----- ------

Class 75.00

-------------------------------- Class=21 --------------------------------- Date Candy

Obs Name Returned Type Profit

6 Adriana 17612 MP 8.75

7 Caitlin 17615 CD 11.25

8 Ian 17615 MP 22.50

9 Anthony 17616 MP 16.25

19

20

21

22

23 10 Erika 17616 MP 21.25 ----- ------

Class 80.00

======

155.00

SAS PROC里面改变输出格式:FORMAT

基本就是FORMAT一下就可以了,再就是PUT的时候也可以调整。R

1 2 3 4 5 6 7 8 9 10 DATA sales;

INFILE 'c:\MyRawData\Candy.dat';

INPUT Name $ 1-11 Class @15 DateReturned MMDDYY10. CandyType $ Quantity;

Profit = Quantity * 1.25;

PROC PRINT DATA = sales;

V AR Name DateReturned CandyType Profit;

FORMA T DateReturned DA TE9. Profit DOLLAR6.2;

TITLE 'Candy Sale Data Using Formats';

RUN;

输出结果为:R

1 2 3 4 5 6 7 8 9

10

11 Candy Sale Data Using Formats 1 Date Candy

Obs Name Returned Type Profit

1 Adriana 21MAR2008 MP $8.75

2 Nathan 21MAR2008 CD $23.75

3 Matthew 21MAR2008 CD $17.50

4 Claire 22MAR2008 CD $13.75

5 Caitlin 24MAR2008 CD $11.25

6 Ian 24MAR2008 MP $22.50

7 Chris 25MAR2008 CD $7.50

8 Anthony 25MAR2008 MP $16.25

12

13 9 Stephen 25MAR2008 CD $12.50

10 Erika 25MAR2008 MP $21.25

常用的格式有:

?文本型:$HEXw.和$w.

?日期型:DATEw.(输出为ddmmyy或者ddmmyyyy)、DATETIMEw.d(输出为ddmmyy:hh:mm:ss)、DAYw.(输出为dd)、EURDFDDw. 、JULIANw.、

MMDDYYw.(输出为mmddyy或mmddyyyy)、TIMEw.d(输出为hh:mm:ss)、WEEKDATEw.(输出为工作日)、WORDDATEw.(输出为单词)。

?数字型:BESTw.(自动选择)、COMMAw.d(逗号分隔)、DOLLARw.d(货币)、Ew.

(科学计数法)、PDw.d、w.d(标准小数)

输出的样本见下:

当然FORMAT还可以自定义factor型变量的输出格式,比如:

R

1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18 DATA carsurvey;

INFILE 'c:\MyRawData\Cars.dat';

INPUT Age Sex Income Color $;

PROC FORMA T;

V ALUE gender 1 = 'Male'

2 = 'Female';

V ALUE agegroup 13 -< 20 = 'Teen'

20 -< 65 = 'Adult'

65 - HIGH = 'Senior';

V ALUE $col 'W' = 'Moon White'

'B' = 'Sky Blue'

'Y' = 'Sunburst Yellow'

'G' = 'Rain Cloud Gray';

* Print data using user-defined and standard (DOLLAR8.) formats; PROC PRINT DATA = carsurvey;

FORMA T Sex gender. Age agegroup. Color $col. Income DOLLAR8.; TITLE 'Survey Results Printed with User-Defined Formats';

RUN;

就可以把数字型的1,2转换为对应的文本male和female等,还可以把变量离散化,得到的输出为:

R

1 2 3 4 5 6 7 Survey Results Printed with User-Defined Formats 1 Obs Age Sex Income Color

1 Teen Male $14,000 Sunburst Yellow

2 Adult Male $65,000 Rain Cloud Gray

3 Senior Female $35,000 Sky Blue

4 Adult Male $44,000 Sunburst Y ellow

5 Adult Female $83,000 Moon White

最终可以实现的自定义输出还包括简单的文本连接,比如:R

1 2 3 4 5 6 7 8 9

10

11

12

13 * Write a report with FILE and PUT statements;

DATA _NULL_;

INFILE 'c:\MyRawData\Candy.dat';

INPUT Name $ 1-11 Class @15 DateReturned MMDDYY10. CandyType $ Quantity;

Profit = Quantity * 1.25;

FILE 'c:\MyRawData\Student.txt' PRINT;

TITLE;

PUT @5 'Candy sales report for ' Name 'from classroom ' Class // @5 'Congratulations! You sold ' Quantity 'boxes of candy'

/ @5 'and earned ' Profit DOLLAR6.2 ' for our field trip.'; PUT _PAGE_;

RUN;

可以给出若干连续的输出(注意DATA _NULL_;将不生成任何SAS的数据表):R

1 2 3 4 5 6 7 8 9 Candy sales report for Adriana from classroom 21

Congratulations! You sold 7 boxes of candy and earned $8.75 for our field trip. ------------

Candy sales report for Nathan from classroom 14

Congratulations! You sold 19 boxes of candy and earned $23.75 for our field trip. ------------

Candy sales report for Matthew from classroom 14

Congratulations! You sold 14 boxes of candy and earned $17.50 for our field trip. ------------

SAS里面总结数据:MEANS

SAS当然还有类似于excel的数据透视表和R的data.table的模块,就是MEANS。可以输出的summary statistics包括最大值、最小值、平均值、中位数、余非缺失值个数、缺失值个数、范围、标准差、和等等。此外,还可以使用BY或者CLASS进行分组统计,VAR 选择变量等。

比如:

R

1 2 3 4 5 6 7 8 9

10

11

12

13 DATA sales;

INFILE 'c:\MyRawData\Flowers.dat';

INPUT CustomerID $ @9 SaleDate MMDDYY10. Petunia SnapDragon Marigold;

Month = MONTH(SaleDate);

PROC SORT DATA = sales;

BY Month;

* Calculate means by Month for flower sales;

PROC MEANS DATA = sales;

BY Month;

V AR Petunia SnapDragon Marigold;

TITLE 'Summary of Flower Sales by Month';

RUN;

可以实现:R

1 2 3 4 5 6 7 8 9

10

11

12

13

14

15 Summary of Flower Sales by Month 1

--------------------------------- Month=5 --------------------------------- The MEANS Procedure

Variable N Mean Std Dev Minimum Maximum

--------------------------------------------------------------------------- Petunia 3 86.6666667 35.1188458 50.0000000 120.0000000 SnapDragon 3 113.3333333 41.6333200 80.0000000 160.0000000 Marigold 3 81.6666667 25.6580072 60.0000000 110.0000000

--------------------------------- Month=6 --------------------------------- Variable N Mean Std Dev Minimum Maximum

--------------------------------------------------------------------------- Petunia 4 81.2500000 16.5201897 60.0000000 100.0000000 SnapDragon 4 97.5000000 47.8713554 60.0000000 160.0000000 Marigold 4 83.7500000 19.7378655 60.0000000 100.0000000

---------------------------------------------------------------------------

当然这些统计量也可以直接的写入一个SAS数据表,只需要加上一个OUTPUT就可以了。原数据:

R

45天TOEFL词汇红宝书记忆计划表

1 L1~3 *L1~3 2 L4~6 *L1~3 *L4~6 3 L7~9 *L4~6 *L7~9 4 L10~12 *L1~3 *L7~9 *L10~12 5 L13~15 *L4~6 *L10~12 *L13~15 6 L16~18 *L7~9 *L13~15 *L16~18 7 L19~21 *L10~12 *L16~18 *L19~21 8 L22~24 *L1~3 *L13~15 *L19~21 *L22~24 9 L25~27 *L4~6 *L16~18 *L22~24 *L25~27 10 L28~30 *L7~9 *L19~21 *L25~27 *L28~30 11 L31~33 *L10~12 *L22~24 *L28~30 *L31~33 12 L34~36 *L13~15 *L25~27 *L31~33 *L34~36 13 L37~39 *L16~18 *L28~30 *L34~36 *L37~39 14 L40~42 *L19~21 *L31~33 *L37~39 *L40~42 15 L43~45 *L1~3 *L22~24 *L34~36 *L40~42 *L43~45 16 *L4~6 *L25~27 *L37~39 *L43~45 17 *L7~9 *L28~30 *L40~42 18 *L10~12 *L31~33 *L43~45 19 *L13~15 *L34~36 20 *L16~18 *L37~39 21 *L19~21 *L40~42 22 *L22~24 *L43~45 23 *L25~27 24 *L28~30 25 *L31~33 26 *L34~36 27 *L37~39 28 *L40~42 29 *L43~45 30 *L1~3 31 *L4~6 32 *L7~9 33 *L10~12 34 *L13~15 35 *L16~18 36 *L19~21 37 *L22~24 38 *L25~27 39 *L28~30 40 *L31~33 41 *L34~36 42 *L37~39 43 *L40~42 44 *L43~45 *单词一天不背就会忘,一个月不背就会前功尽弃。请坚持每天45分钟左右的时间复习3个List,可保无忧! 背一页红宝书单词10个需要5分钟。在背下一页前,立即返回第一个单词,迅速复习一遍。第二页也是如法炮制。用这种方法背过6页以后,立即从第一页开始复习。由于这些单词刚刚背过这一遍复习只需要三分钟。然后用同样的方法背1~12页。整个List大约一个小时。 最佳记忆时间上午9-11、下午3-4. 晚上7-10 本方法进行到中间阶段地时候,是最为关键也是最为痛苦地时候,极其容易半途而废,请一定咬牙挺过去。如果实在坚持不下去了。把一天3个List减少到2个List。从本质上来讲,背单词就是一个与遗忘不断的奋斗的过程,正可谓逆水行舟,不进则退。 人的记忆周期分为短期记忆和长期记忆两种。

应用多元统计分析SAS作业审批稿

应用多元统计分析S A S 作业 YKK standardization office【 YKK5AB- YKK08- YKK2C- YKK18】

5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。 表1 岩石化学成分的含量数据 (1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等); (2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿? 问题求解 1 使用广义平方距离判别法对样本进行判别归类 用SAS软件中的DISCRIM过程进行判别归类。 SAS程序及结果如下。 data d59; input group x1-x3@@; cards; 1 2.58 0.9 0.95 1 2.9 1.23 1 1 3.55 1.15 1 1 2.35 1.15 0.79 1 3.54 1.85 0.79 1 2.7 2.23 1.3 1 2.7 1.7 0.48 2 2.25 1.98 1.06 2 2.16 1.8 1.06 2 2.3 3 1.7 4 1.1 2 1.96 1.48 1.04

2 1.94 1.4 1 2 3 1.3 1 2 2.78 1.7 1.48 ; proc print data =d59; run ; proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ; 由输出结果可知,两总体间的广义平方距离为D 2=3.19774。还可知两个三元总体均值相等的检验结果:D =3.19774,F =3.10891,p =0.0756<0.10,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。 线性判别函数为: 判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。 2 对给定样本判别归类 将Cu ,Ag ,Bi 的含量数值2.95、2.15、1.54分别代入线性判别函数得: 1244.674246.978882Y Y ==,。 贝叶斯判别的解{}***1, ,k D D D = 为 {}*|()(),,1, ,(1, ,)t t j D X Y X Y X j t j k t k =>≠==, 由于1244.6742246.97888Y Y =<=,因此待判的样品判为不含矿。 5-10 已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。假定样本均来自正态总体。 表2 判别分类的数据

SAS作业(1)详解

SAS作业(1)详解 By 乔兴龙P57 13.下表分别给出两个文学家马克吐温(Mark Twain)的8篇小品文以及斯诺特格拉斯(Snodgrass)的10篇小品文中由3个字母组成的词的比例: 马克 0.225 0.262 0.217 0.240 0.230 0.229 0.235 0.217 吐温 斯诺 0.209 0.205 0.196 0.210 0.202 0.207 0.224 0.223 0.220 0.201 特格 拉斯 设两组数据分别来自正态总体,且两个总体方差相等,两个样本相互独立。问两个作家所写的小品文中包含由3个字母组成的词的比例是否有显著的差异(取α=)? 0.05 分析:检验是否有差异,即检验u1-u2=0,方差相等且未知,因此要用t检验法,置信区间a=0.05 操作: 在program editor 中输入 Data P59Q13; input x y @@; card; 0.225 0.209 0.262 0.205 0.217 0.196 0.240 0.210 0.230 0.202 0.229 0.207 0.235 0.224 0.217 0.223 . 0.220 . 0.201 proc print; run; 点击运行一次。 Solutions—analysis—analyst File—open by sas name—work—p59q13—OK Statistics—hypothesis tests—two sample t test for means 选中two variables,x—group 1,y—group 2,mean1-mean2=0,alternative选择第一个,test—confidence intervals选择interval,95.0% OK—OK 所得结果: Two Sample t-test for the Means of x and y 8 09:29 Wednesday, October 7, 2011 Sample Statistics

托福英语怎么样学习有什么方法技巧

托福英语怎么样学习有什么方法技巧托福英语怎么样学习有什么方法技巧 2、同时加大阅读量。阅读可以稍微比单词起步晚一些,因为你 需要一定的积累,这样你阅读起来才不会那么吃力。阅读最好是3 篇连贯做(1小时),1篇篇做违反真实考试定律,事倍功半。 4、研究托福题型,强化练习。托福OG和TPO必做。OG精做, 也没几套题,3天最多搞定,心里打个底。这样才能全面了解整个 考试,掌握新托福出题和评分思路。接着就是研究各科的答题技巧。TPO(重点中的重点)前几套作为测试和检测用,后几套作为提高分析用。 5、最后就是做模考题了,熟悉考场环境,掌握应试技巧。 一、托福词汇 第一步就要从打基础开始,基础打好了,在接下来的托福备考中就底气十足了。托福词汇记忆是最基础的,简单来说就是背单词, 这对于很对考生来说不用多说,考生在背单词的时候要选择至少2 本的单词书,分别为大学4级单词和托福单词,因为很多托福单词 实际上都是包括四级单词的,但是对于很多零基础的考生来说,这 一部分恰恰是比较缺乏的,所以考生在准备单词的时候能够很好的 运用这部分四级单词书是非常重要的。 二、托福长难句分析 而中国的英语教育恰恰偏向于更冷门的东西,所以中国考生在参加这类考试的时候就不讨巧了。所以,考生在分析长难句时,最重 要的目的是快速理解这句的意思。 三、托福语法

第二部分句子说完了,接下来就是语法了。语法大概分为两类,一类是最基础的语法知识,首先考生要将最基础的语法知识补全,然后在去不断的丰富一些比较难的语法,这样才能够循序渐进,更好的汲取托福语法知识。 词汇 阅读 托福阅读给出的时间相对比较充裕,平常练习的时间每篇大概满打满算在20分钟之内,不用刻意提升阅读速度,但是在考场的时候由于紧张或者试题难度真的有所变化,最后一篇差一点没有做完。所以大家平时做练习,最好控制在每篇18分左右,这样在考场上能留出一些. 听力 听力存在的问题往往就是做笔记和听内容出现了冲突。听力老师上课也会介绍,主要还是听内容为主,做笔记为辅,最好在听完后不做笔记在脑海中也能有一个大致的'框架,这样即使有疏漏也能不依赖于笔记。此外,做笔记学会使用符号和简写也比较重要. 写作 写作重要的是句式和词汇的积累。托福写作相对套路化,不需要非常严格的逻辑,但是考察一定的语言输出功底。综合性写作其实考察听力和阅读的部分更加多一些,对于语言的多样性、词汇的多样性要求相对低,主要要求大家能够准确捕捉到两个观点之间的关系. 口语 口语的功夫主要也是下在平时。前两项主观题只有45秒的答题时间,最忌讳的就是把时间留在停顿上。对于准备时间充沛的同学们,可以准备一些常见的语料素材,但是也可能遇见准备的语料都没有用的情况,在考试前也可锻炼自己短时间内反应能力上.

应用多元统计分析SAS作业

应用多元统计分析S A S作 业 Prepared on 22 November 2020

5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。 表1 岩石化学成分的含量数据 (1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等); (2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为,和,试判断该标本是含矿还是不含矿 问题求解 1 使用广义平方距离判别法对样本进行判别归类 用SAS软件中的DISCRIM过程进行判别归类。 SAS程序及结果如下。 data d59; input group x1-x3@@; cards; 1 1 1 1 1 1 1 1 1 2 2

2 2 2 1 2 3 1 2 ; proc print data =d59; run ; proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ; 由输出结果可知,两总体间的广义平方距离为D 2=。还可知两个三元总体均值相等的检验结果:D =,F =,p =<,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。 线性判别函数为: 判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。 2 对给定样本判别归类 将Cu ,Ag ,Bi 的含量数值、、分别代入线性判别函数得: 1244.674246.978882Y Y ==,。 贝叶斯判别的解{}***1, ,k D D D = 为 {}*|()(),,1, ,(1, ,)t t j D X Y X Y X j t j k t k =>≠==, 由于1244.6742246.97888Y Y =<=,因此待判的样品判为不含矿。 5-10 已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。假定样本均来自正态总体。 表2 判别分类的数据

SAS作业

1. Homework1数据集是我国农产品进口排名前10的国家,请对进口额进行描述性统计分析(要求计算均值,标准差,最大,最小,中位数)。 程序及运行结果: /*读入数据文件*/ procimport datafile='C:\Users\Administer\Desktop\SAS\第一次作业 \Homework1.csv'out=homework1; run; procprint data=homework1; run; 上述读取数据的运行结果如下: /*描述性统计*/ procmeans data=homework1 meanstdmaxminmedian ; var VAR3; outputout=result; run; means过程指定输出平均值,标准差,最大值,最小值和中位数的描述性统计结果如下图。

2. Homework2 数据集是对成人每天摄入蛋白质含量的调查数据,利用univariate 过程对调查数据进行描述分析,进一步按照性别分组分析。 (1)读入数据 procimport datafile='C:\Users\Administer\Desktop\SAS\第一次作业 \Homework2.txt'out=homework2; run; procprint data=homework2; run; 打印数据: (2)利用univariate过程对调查数据进行描述分析 procunivariate data=homework2; var VAR3 VAR4 ; run; VAR3变量运行结果(VAR4同理,结果不再列出)如下。其中位置检验表明t检验,符号检验和符号秩和检验都显著,即拒绝原假设。

gre背单词哪本书比较好

gre背单词哪本书比较好 词汇是GRE考试最为基础的部分,一般考生复习考试的时候都要准备充足的GRE词 汇量。那么,gre背单词哪本书比较好? 以下是gre单词书等等的介绍,希望可以帮助 到您。 gre背单词的书本 1.GRE词汇红宝书是俞敏鸿的,其中的核心词汇必须要背,最新词汇不用被。蓝宝书 是也是比较好的,还有一本就是黑宝书吧!绿宝书是猴哥出的。黄宝书好像就是个很无 聊的人用GRE词汇编的一个黄段子,没看过,但听说过。白宝书不知道是什么。 2.红宝书当然必须要背了。它包括了其他所有书的单词,缺点是类比翻译的例子比较少。蓝宝书和绿宝书例子多。 3.当然最先背红宝书。然后看看蓝宝书或者绿宝书。有两个理由,第一,单词最全, 背完红宝书,不用背其他的了。而且书上给了很多助记法。第二,虽然此书上例子少,但是你认为你可能第一遍背的时候就既背下来单词,又记住例子么?就算你能,我已一个过来人的经验告诉你,你会觉得书越读越厚,没有力气往下背了。记住了,你的任 务是背下来,至于怎么用,是背完后的任务。 4.好好背吧。用杨鹏的《17天搞定GRE单词》里的时间表背。要是你没有那么强悍,每天背3个list,那就背两个。只背核心词汇,一个月足够了 GRE考试词汇如何选择词典 1.够用。有人学GRE词汇量买了本《英汉小词典》之类的玩意儿,很显然是不够的。GRE考你万儿八千的词汇,备查词典首先得够量,但并不是词典个头越大收词量就越多。教各位一个简单方法:随便从红宝书的某个角落里挑出几个你觉得非常“恶心”、 一辈子都见不着一两次的词汇,到词典当中去找,如果这部词典对这些词解释得不错,那就是够用的。 2.用得上。有人看了上面的原则,马上走向了另一个极端,去找那些重达十几斤的巨 型辞典——这也没有必要。这里面你用得着的可能也就那么几百页,GRE参考书大量 的资源被浪费和闲置了。Webster、Longman、Oxford的某些词典都是可以的。一般 有个8万以上的词汇量就行。 如何背GRE单词

时间序列分析,sas各种模型,作业神器

实验一分析太阳黑子数序列 一、实验目的:了解时间序列分析的基本步骤,熟悉SAS/ETS软件使用方法。 二、实验内容:分析太阳黑子数序列。 三、实验要求:了解时间序列分析的基本步骤,注意各种语句的输出结果。 四、实验时间:2小时。 五、实验软件:SAS系统。 六、实验步骤 1、开机进入SAS系统。 2、创建名为exp1的SAS数据集,即在窗中输入下列语句: 3、保存此步骤中的程序,供以后分析使用(只需按工具条上的保存按钮然后填写完提问 后就可以把这段程序保存下来即可)。 4、绘数据与时间的关系图,初步识别序列,输入下列程序: ods html; ods listing close; 5、run;提交程序,在graph窗口中观察序列,可以看出此序列是均值平稳序列。

6、识别模型,输入如下程序。 7、提交程序,观察输出结果。初步识别序列为AR(2)模型。 8、估计和诊断。输入如下程序: 9、提交程序,观察输出结果。假设通过了白噪声检验,且模型合理,则进行预测。 10、进行预测,输入如下程序: 11、提交程序,观察输出结果。

12、退出SAS系统,关闭计算机。总程序: data exp1; infile "D:\"; input a1 @@;

year=intnx('year','1jan1742'd,_n_-1); format year year4.; ; proc print;run; ods html; ods listing close; proc gplot data=exp1 ; symbol i=spline v=dot h=1 cv=red ci=green w=1; plot a1*year/autovref lvref=2 cframe=yellow cvref=black ; title "太阳黑子数序列"; run; proc arima data=exp1; identify var=a1 nlag=24 minic p=(0:5) q=(0:5); estimate p=3; forecast lead=6 interval=year id=year out=out; run; proc print data=out; run; 选取拟合模型的规则: 1.模型显著有效(残差检验为白噪声)

10天搞定6级词汇

10天搞定6级词汇(以新东方绿皮乱序为例)The Schedule of Reciting Words(CET 6) Day 1 2 3 4 5 6 7 List 1-3 *List 1-3 List 4-6 *List 1-3 *List 4-6 List 7-9 *List 4-6 *List 7-9 List 10-12 *List 1-3 *List 7-9 *List 10-12 List 13-15 *List 4-6 *List 10-12 *List 13-15 List 16-18 *List 7-9 *List 13-15 *List 16-18 List 19-21 *List 10-12 *List 16-18 *List 19-21 8 9 10 11 12 13 14 List 22-24 *List 1-3 *List 13-15 *List 19-21 *List 22-24 List 25-27 *List 4-6 * List 16-18 * List 22-24 * List 25-27 List 28-30 *List 7-9 * List 19-21 * List 25-27 *List 28-30 * List 10-12 * List 22-24 * List 28-30 * List 13-15 * List 25-27 * List 16-18 * List 28-30 * List 19-21 15 16 17 18 19 20 21 * List 1-3 * List 22-24 * List 4-6 * List 25-27 * List 7-9 * List 28-30 *List 10-12 *List 13-15 *List 16-18 *List 19-21 22 23 24 *List 22-24 * List 25-27 *List 28-30 注意:1.打*号的是复习 2.如果觉得一天3个LIST任务太重,可以换为每天2个LIST,如此一来就是《15天搞定6级词汇》,就根据此表格自己制作 3.本表格采用的是著名的艾宾浩斯记忆法,非常科学 对于此表,我只想说坚持才是最重要的,必须完全按照词汇表来背,中途一定不能中断,一旦中断前面的功夫就白费了。同学可以把每一天天数改成具体时间,这样看起来就更有感觉。第10天就背完一遍了,剩下的都是复习。 笔者现在以最经典地绿皮书为例,系统地讲解一下背单词地全过程。 绿皮书共30个List,每个List在12-13页之间。平均每个List有80个单词,请读者在第一次背单词的时候,为自己定下的记忆标准一定不能太高。过高的标准只能增加学习者的记忆量,降低工作效率,挫伤其信心,有百害而无一利。有些同学喜欢第一遍背单词的时候就

新东方老师的单词记忆

新东方老师的“超级背单词法”!5分钟200个,一周1000,三周搞定托福单词。方法是死的人是活的,要根据自己变通啊。 学习资料:新东方老师的“超级背单词法” 我打小memory就很poor,常为老师和同学所取笑,早已习以为常。所以在中学时,对历史和地理课一筹莫展,记不住啊。但我政治总是能考得很高,因为我很重视,考前的几天我反复背诵,直到记住为止,此所谓“驽马十驾,功在不舍”。政治的高分给了我许多信心,让我明白意志力比记忆力更重要。刚上大一,我又以这种锲而不舍的精神向单词关发起了冲锋,结果是屡背屡忘,常令人沮丧不已。多少次,我孤独地望着窗外,觉得英语单词仿佛是遥远天际的一片片云朵,让我可望而不可即。曾国藩“屡败屡战”的故事激励了我,也启发了我。做任何事都要讲方法,讲策略,才能达到事半功倍的成效。后来我就摸索出了一种独特的方法,不妨就叫“胡氏超级背单词法”。经过我自己的亲身实践,感到效果奇佳,短短几个月时间内,让我的单词量剧增。我常做这样的类比:李四光的新理论摘掉了中国贫油国的帽子,而我的超级单词法我成为当时数学系的walking dictionary。在这里,我把该方法详细描绘如下,希望大家能从中有所受益。 现要声明一下,该方法不适合记忆力好的朋友,memory犹如陈寅恪、钱钟书者,就不必浪费你的眼神。而对于记忆力差的人,不啻是一大福音;而且记忆力越差,就越能体现方法之功用。 胡氏超级背单词法 1.每天记忆单词的最佳量应在200 到300之间。 2.先选择一本托福/GRE单词书,然后以一周为一个单位,进行记忆。 3.周一看每页的第一个单词,换句话说要翻200页才能完成记忆200个单词任务量。 4.翻页的速度要快,每个单词就是扫一眼,不能留恋。保证用5分钟把这200个单词翻完。 5.一天选择十个这样的5分钟,来对这200个单词进行反复记忆。这十个5分钟一定不是连续的,而是一天中不同时间、不同场景的十个5分钟,场景越特殊,效果越好。 6.不要用正规时间来背单词;一般人每天要浪费20个以上的5分钟,把其中十个捡回来,做记忆单词用;正规时间用来学习其它知识,而且正规时间记单词的效果最差(这是心理原因)。 7.周二看每页的第二个单词,同时用余光斜一眼第一个单词。不准再用正光看第一个,否则时间就无法控制在5分钟之内。 8.以此类推,到周五时,就过了一千个单词,周六和周日复习一下;下一周开始新的一千个,一定要向前走。 9.三周过后,一本托福单词书就背完了,达到的效果是大概认识了其中20%(假设本来一个都不认识),甚至不到。但不可重新背该书,一定要换书,换另一版本的托福书(这对心理很重要)。

sas第一次作业

SAS 第二次作业 光科1201 梁修业 7-4-2一种合金在某种添加剂的不同浓度之下,各做三次实验,得数据如下表: 浓度x 10.0 15.0 20.0 25.0 30.0 抗压强度y 25.2 27.3 28.7 29.8 31.1 27.8 31.2 32.6 29.7 31.7 30.1 32.3 29.4 30.8 32.8 (1)作散点图; (2)以模型y=b 0+b1x+b2x+ ε ,2~0N εσ(,),拟合数据,其中b0,b1,b2,2σ与x 无 关,求回归方程2012????y b b x b x =++。 解:(1) (2)将x 看成x1,x^2 看成x2,在表格中增加变量x2,此题即转化为多元线性回归 所以2?19.0333 1.00860.0204y x x =+-。

7-4-3对§7.4例3的钢包容积y和使用次数x的数据,假定 b x y ae-=。 (1)画散点图; (2)试分别作变量替换,化非线性回归模型为线性回归模型并讨论回归方程的显著性。 解: (1) (2)利用Insight模块求解。增加两个变量,u=lny,v=-1/x, 说明:方程为 1 ? ln 4.71410.0903() y x =+-,方差分析表中p-值小于0.0001,说明 了回归方程高度显著。

7-4-4槲寄生是一种寄生在大树上部树枝上的寄生植物,它喜欢寄生在年轻的大树上,下表给出在一定条件下完成的实验中采集的数据。 x 3 4 9 15 40 y 28 33 22 10 36 24 15 22 10 6 14 9 1 1 (1)作出(x i ,y i )的散点图, (2)令z i =lny i ,作出(x i ,z i )的散点图 (3)以模型2 ,ln~(0,) bx y ae N εεσ =拟合数据,其中a,b,2σ与x无关,试求曲线回归方程?bx ? ?y=ae。 解:(1) (2)Insight模块。增加变量z=lny

新东方大愚书目

本文由sylar1995贡献 xls文档可能在WAP端浏览体验不佳。建议您优先选择TXT,或下载源文件到本机查看。 新东方大愚文化传播有限公司图书目录 序号 出国考试 TOEFL系列 系列 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 TOEFL iBT 100分词汇(附MP3) TOEFL iBT 120分短语(附MP3) TOEFL iBT 120分词汇(附MP3) 托福考试技能培训教程——高级(附MP3) 托福考试技能培训教程——中高级(附MP3) 托福考试技能培训教程——中级(附MP3) ETS新托福考试官方指南第3版(附CD-ROM) TOEFL词汇词根+联想记忆法(附mp3) TOEFL词汇词根+联想记忆法:45天突破版(附MP3) 新托福考试备考策略与模拟试题(附MP3) 新托福考试专项进阶——初级写作(附MP3) 新托福考试专项进阶——中级写作(附MP3) 新托福考试专项进阶——高级写作(附MP3) 新托福考试专项进阶——高级听力(附MP3) 新托福考试专项进阶——初级听力 新托福考试专项进阶——中级听力 新托福考试专项进阶——初级阅读 新托福考试专项进阶——中级阅读 新托福考试专项进阶——高级阅读 新托福考试专项进阶——初级口语(附MP3) 新托福考试专项进阶——中级口语(附MP3) 新托福考试专项进阶——高级口语(附MP3) 新托福考试专项进阶——阅读模拟试题(上) 新托福考试专项进阶——阅读模拟试题(下) 新托福考试专项进阶——听力模拟试题(上)(附MP3) 新托福考试专项进阶——听力模拟试题(下)(附MP3) 新托福考试写作剖析及高分范文 TOEFL.iBT阅读词汇小伴侣 新托福考试写作高分速成 25.00 28.00 25.00 48.00 48.00 48.00 88.00 28.00 45.00 98.00 40.00 38.00 42.00 45.00 42.00 45.00 35.00 38.00 40.00 42.00 38.00 42.00 36.00 36.00 40.00 36.00 48.00 15.00 35.00 书名 定价 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 新托福考试口语胜经(附MP3) 新托福考试听力胜经 TOEFL iBT口语满分模板 TOEFL iBT词汇10000(附MP3) TOEFL iBT口语词汇小伴侣 TOEFL iBT语法精要 TOEFL iBT听力词汇小伴侣 新托福考试冲刺试题(附MP3) TOEFL iBT写作词汇小伴侣 新托福考试全真模考题与精解(附MP3、CD-ROM) TOEFL词组 词以类记:TOEFL iBT词汇(附MP3) 挑战TOEFL.iBT作文满分 新托福考试阅读技能与考点精练1(附MP3) 新托福考试阅读技能与考点精练2(附MP3) 新托福考试阅读技能与考点精练3(附MP3) 10天搞定TOEFL作文 TOEFL.iBT高分作文(附MP3) TOEFL.iBT听力新思维(附CD-ROM) TOEFL.iBT听力习语必备(另配磁带4盘) 新托福考试完全攻略 新托福考试阅读特训 新托福考试听力特训 新托福考试听力特训 配套CD(7张) 新托福考试写作特训(附CD1张) 新托福考试口语特训 新托福考试口语特训 配套CD(4张) 新托福考试口语特训 配套磁带(4盘) 新托福考试综合教程(光盘版,含8张CD及1张CD-ROM) 49.00 45.00 25.00 45.00 15.00 17.00 18.00 58.00 16.00 118.00 28.00 35.00 30.00 38.00 38.00 38.00 10.00 48.00 28.00 24.00 10.00 48.00 48.00 49.00 46.00 48.00 28.00 28.00 148.00 新托福考试综合教程(磁带版,含8盘磁带及1张CD-ROM) 148.00 TOEFL词汇 TOEFL词汇精选 TOEFL核心词汇21天突破 30.00 23.00 29.00 GRE系列 系列 63 64 65 GRE写作论证论据素材大全 GRE词汇精选(便携版) GRE阅读必备专业词汇 35.00 18.00 15.00 66 67 68 69 70 71 72 73 74 75 76 77 78 GRE&GMAT阅读难句教程 GRE写作高分速成——Argument GRE写作高分速成——Issue GRE官方题库范文精讲 GRE词汇精选(附MP3) 词以类记:GRE词汇(附MP3光盘) GRE作文大讲堂——方法、素材、题目剖析 手把手教你GRE作文 GRE综合指导与全真考场(附CD-ROM) GRE全真模拟试题集 17天搞定GRE单词 GRE写作 GRE词汇逆序记忆小词典 30.00 30.00 30.00 48.00 58.00 55.00 48.00 28.00 78.00 55.00 10.00 48.

SAS作业

使用SAS软件完成下列任务: 1.对数据集sashelp.class中的身高和体重进行描述性统计分析,计算基本统计量,并给出分析结论。 身高: 结论:身高数据共19个,最大值为72,最小值为51.3,相差20.7。55-65之间的数据最多。中位数为62.8,平均数为62.3。数据的标准差为5.1271,方差为26.2869

体重: 结论:体重数据共19个,最大值为150,最小值为50,相差99.5。中位数为99.5,平均数为100.026。数据的标准差为22.7739,方差为518.652 2.对数据集中的男生和女生分别进行问题1中的基本统计量的计算,并写出结论 身高:

结论:男生身高数据共10个,平均数为63.91。数据的标准差为4.9379,方差为24.3832,对男生身高95%的可能集中于60.3776到67.4424之间。 女生身高数据共9个,平均数为60.5889。数据的标准差为5.0183,方差为25.1836,对女生身高预测95%的可能集中于56.7315到64.4463之间。 男生的身高相较于女生而言更集中。男生身高也普遍比女生高一些。 体重: 结论:男生体重数据共10个,平均数为108.95。数据的标准差为22.7272,方差为516.525,对男生身高95%的可能集中于92.692到125.208之间。 女生体重数据共9个,平均数为90.1111。数据的标准差为19.3839,方差为375.7361,对女生身高预测95%的可能集中于75.2113到105.0109之间。 女生的体重相较于男生而言更集中。女生体重也普遍比男生轻一些。

应用多元统计分析SAS作业第三章

3-8假定人体尺寸有这样的一般规律,身高(X 1),胸围(X 2)和上半臂围(X 3)的平均尺寸比例是6:4:1,假设()()1,,X n αα=L 为来自总体()123=,,X X X X '的随机样本,并设()~,X N μ∑。试利用表3.4中男婴这一数据来检验其身高、胸围和上半臂围这三个尺寸变量是否符合这一规律(写出假设H 0,并导出检验统计量)。 解:设32,~(,),~(,)Y CX X N Y N C C C μμ'=∑∑。 121231233106,,,,,014C X X X μμμμμμμ??-?? ? == ? ?-?? ? ??其中,分别为 的样本均值。则检验三个变量是否符合规律的假设为 0212:,:H C O H C O μμ=≠。 检验统计量为 2 1(1)1~(1,1) (3,6)(1)(1) n p F T F p n p p n n p ---+= --+==--, 由样本值计算得:=(82,60.2,14.5)X ',及 15840.2 2.5=40.215.86 6.552.5 6.559.5A ?? ? ? ??? , 2-1(1)()()()=47.1434T n n CX CAC CX ''=-,

221(1)12 =18.8574(1)(1)5 n p F T T n p ---+= ?=--, 对给定显著性水平=0.05α,利用软件SAS9.3进行检验时,首先计算p 值: p =P {F ≥18.8574}=0.0091948。 因为p 值=0.0091948<0.05,故否定0H ,即认为这组男婴数据与人类的一般规律不一致。在这种情况下,可能犯第一类错误·且犯第一类错误的概率为0.05。 SAS 程序及结果如下: prociml ; n=6;p=3; x={7860.616.5, 7658.112.5, 9263.214.5, 815914, 8160.815.5, 8459.514 }; m0={00,00}; c={10 -6,01 -4}; ln={[6]1}; x0=(ln*x)`/n; print x0; mm=i(6)-j(6,6,1)/n; a=x`*mm*x; a1=inv(c*a*c`); a2=c*x0; dd=a2`*a1*a2; d2=dd*(n-1); t2=n*d2; f=(n+1-p)*t2/((n-1)*(p-1)); print x0 a d2 t2 f; p0=1-probf(f,p-1,n-p+1); fa=finv(0.95,2,4); print p0; run ;

罗永浩演讲稿

罗永浩演讲稿 大家镇定一下情绪,我准备出来了。 基本上这个区域的都是我的朋友,然后在亲朋好友面前出吹牛皮是我长久以来的梦想。因为,我这辈子出去吹牛都是对这外边人吹的,所以我很想有个机会能对朋友们吹吹牛。咱们进入主题,今年的,这是我们去年高校巡讲的时候使用的演讲主题叫《我的奋斗》,这个今年呢,我们已经换了,叫做《一个理想主义者的创业故事》。 这个换的原因,说起来很尴尬,甚至是比较心酸的,因为在我们演讲界有个非常讨厌的地方,就是我们必须每年讲不同的东西,如果你今年讲的和去年一样,明年讲的和今年一样就会受到很多不友好的对待,有时候会扔臭鞋上来。但是我已经观察到我好多搞音乐的朋友,像什么玮纬,左老师也都来了,这些搞音乐的朋友很幸福,一辈子只要红三首歌,就可以吃一辈子了。实际上,如果你万幸,红了十首歌,那你就牛了,就是这样。我一直很早就注意到音乐界有这样的东西,你连续三年唱同样的歌,从来不会有人嫌;你唱的是三年前五年前的歌,没有意见,会得到比较好的对待,如果你竟然厚着脸皮把一首歌唱了三十年,可能出现的结果就更恐怖了,下面的歌迷不但听完了很满意,会热烈地鼓掌欢呼,甚至还会抱头痛哭,说找到了青春的回忆,就是这样。所以

呢,我个人从去年三十七岁的高龄也已经觉得搞音乐的比我们搞演讲吃饭的要爽的多,所以呢我以三十七岁的高龄已经开始在学习吉他了,你们来的时候,可能看到这有一把吉他,有些我的好朋友可能知道我已经开始在学琴了,可能指望我今天就弹一首,我得在开场的时候就告诉你们,我目前还做不到,我只能勉强弹一些简单的东西,等到明年这个时候差不多就可以给你们表演一些曲子了,我估计,我希望是。 还有今年换了演讲主题的另一个原因是,我在今年春天的时候已经把我去年巡讲的主题结集出版了一本书叫《我的奋斗》,相信你们进来的时候已经一人领到了一本,如果你们领到的是一本你们原来已经有的书,只要没拆那个塑封的话,可以给大家换一本我在年底前后出版的一本我的杂文集,这个在发票的时候已经给大家说过了。没有吗?你是不是手欠已经把它拆开了?没拆的话可以换新书,如果拆了就算了。我这本书出来了,惹了一点点麻烦,大家可以看一下。这本书出来的时候惹了一点麻烦就是因为和希特勒的这本书重名,所以在当当、卓越上,刚刚上线的时候很多人一看书名,连作者姓名都没看直接点了购买,然后就认为上当了,给当当卓越的客服打电话,骂娘,甚至要求退货的,所以我今年高校巡讲的时候,就把这个希特勒的封皮也带过来了,好让大家注意区分。当然今天晚上,对我们这一群人演讲的时候,可能是不需要的,但是我没能改掉这个PPT,大家可

SAS入门教程

第一章SAS系统概况 SAS(Statistic Analysis System)系统是世界领先的信息系统,它由最初的用于统计分析经不断发展和完善而成为大型集成应用软件系统;具有完备的数据存取、管理、分析和显示功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统。 SAS系统是一个模块化的集成软件系统。SAS系统提供的二十多个模块(产品)可完成各方面的实际问题,功能非常齐全,用户根据需要可灵活的选择使用。 ●Base SAS Base SAS软件是SAS系统的核心。主要功能是数据管理和数据加工处理,并有报表生成和描述统计的功能。Base SAS软件可以单独使用,也可以同其他软件产品一起组成一个用户化的SAS系统。 ●SAS/AF 这是一个应用开发工具。利用SAS/AF的屏幕设计能力及SCL语言的处理能力可快速开发各种功能强大的应用系统。SAS/AF采用先进的OOP(面向对象编程)的技术,是用户可方便快速的实现各类具有图形用户界面(GUI)的应用系统。 ●SAS/EIS 该软件是SAS系统种采用OOP(面向对象编程)技术的又一个开发工具。该产品也称为行政信息系统或每个人的信息系统。利用该软件可以创建多维数据库(MDDB),并能生成多维报表和图形。 ●SAS/INTRNET ●SAS/ACCESS 该软件是对目前许多流行数据库的接口组成的接口集,它提供的与外部数据库的接口是透明和动态的。 第二章Base SAS软件 第一节SAS编程基础 SAS语言的编程规则与其它过程语言基本相同。 SAS语句 一个SAS语句是有SAS关键词、SAS名字、特殊字符和运算符组成的字符串,并以分号(;)结尾。 注释语句的形式为:/*注释内容*/ 或*注释内容。 二、SAS程序 一序列SAS语句组成一个SAS程序。SAS程序中的语句可分为两类步骤:DA TA步和

21天搞定新托福听力

内容推荐 本书将21天的训练划分为5个章节21天,每个章节对应一周的时间,每一天的训练包含4个填空训练和5个听写训练。填空训练旨在训练读者对于单词的识别能力,而听写训练旨在强化读者的句子识别能力。需要指出的是,听写训练中的步骤3是为听力基础较弱的考生设计的,它可以更好地帮助学生在听写之前把握文章的大意。为了方便读者更为有效地利用本书,笔者在每个单元的前三个听写训练中加入步骤3以达到被动式听写训练的效果,而对于后两个听写训练,笔者建议考生可以尝试主动式听写训练模式(跳过上述的步骤3直接进行句子识别)。当然根据个人水平的不同,读者可以自行选择适合自己的训练模式,比如基础较高的同学可以对5篇听写训练文章中的3篇采用主动式听写模式而对其余2篇采取被动式训练;基础稍差的同学可以先对这5篇文章全部采取被动式听写模式,并随着实力的提高做出相应的调整,以此类推。此外,每篇文章的标题均设有相应学术类背景标号;如第一天的听写训练4有关“鸟”的文章是听写训练中生物学的第四篇,则标注为“所写训练4:鸟一一B50/4”,其余各类学术背景以此类推。 作者简介 马骏: 2003年北京新东方国外考试部托福教师,托福听力首席主讲; 2004年任职北京新东方国外考试部主任助理,北京新东方SA了项目创始人; 2005年独立主编全国第一套SAT培训教材;

2006年任北京新东方国际预备学校教学主管,新东方直通车项目创始人; 2007年创立小马过河新托福&SA丁备考门户网: 2008年成立小马过河网络科技有限公司; 2009年负责北京新东方VIP北美考试(托福,SAT,SSAT)“1对1”、“1对6”保分班;2010年出任新东方网络顾问,规划新东方网; 2011年成立小马过河国际教育咨询有限公司独立开展北美考试精品培训业务。 目录 Chapter Ⅰ 第一天 填空训练1 听写训练1 填空训练2 听写训练2 填空训练3 听写训练3 填空训练4 听写训练4 听写训练5 第二天 填空训练5 听写训练6 填空训练6 听写训练7

SAS 作业

课程作业报告 课程名称:数据统计分析软件 班级:环科1401 学号:A03140377 姓名:沈晶晶 教师:郭微 成绩: P61 例5.1.1(1) data eg51;

input name $ sex $ age salary educa $; label name="姓名" sex="性别" age="年龄"; label salary="工资"educa="受教育情况"; cards ; 李斯 男 20 1200 初 王老五 女 25 1260 初 赵柳 女 28 1350 中 史奇 男 27 1350 高 朱巴 男 30 1290 中 刘久 男 35 1400 中 康实 女 32 1410 高 申山 男 31 1410 高 ;; proc gchart data =eg51; vbar sex; run ; P61 例5.1.1(2) data eg51; input name $ sex $ age salary educa $; label name="姓名" sex="性别" age="年龄"; label salary="工资"educa="受教育情况"; cards ; 李斯 男 20 1200 初 王老五 女 25 1260 初 赵柳 女 28 1350 中 史奇 男 27 1350 高 朱巴 男 30 1290 中

P100 例6.1 title'6种施肥法的小麦植株含氮量的方差分析'; data mp97; input treat nitrogen @@; cards; 1 2.9 2 4.0 3 2.6 4 0. 5 5 4. 6 6 4.0 1 2.3 2 3.8 3 3.2 4 0.8 5 4. 6 6 3.3 1 2. 2 2 3.8 3 3. 4 4 0.7 5 4.4 6 3.7 1 2.5 2 3.6 3 3. 4 4 0.8 5 4.4 6 3.5 1 2.7 2 3.6 3 3.0 4 0. 5 5 4.4 6 3.7 ; proc anova; class treat; model nitrogen=treat; means treat/duncan; run; 6种施肥法的小麦植株含氮量的方差分析 The ANOVA Procedure Class Level Information Class Levels Values treat 6 1 2 3 4 5 6

相关主题
文本预览
相关文档 最新文档