SAS - 合并数据集 - Gingerdoc 姜知笔记

笔记首页 >> sas >> SAS – 合并数据集

SAS – 合并数据集

多个 SAS 数据集可以基于特定的公共变量合并以提供单个数据集。这是使用MERGE语句和BY语句完成的。合并数据集中的观察总数往往小于原始数据集中的观察总数。这是因为当公共变量的值匹配时，来自两个数据集的变量会合并为一个记录。

下面给出了合并数据集的两个先决条件 –

输入数据集必须至少有一个要合并的公共变量。
输入数据集必须按将用于合并的公共变量排序。

句法

SAS 中 MERGE 和 BY 语句的基本语法是 –

MERGE Data-Set 1 Data-Set 2
BY Common Variable

以下是所用参数的描述 –

Data-set1、Data-set2是依次写入的数据集名称。
公共变量是基于其匹配值合并数据集的变量。

数据合并

让我们通过一个例子来理解数据合并。

例子

考虑两个 SAS 数据集，一个包含带有姓名和薪水的员工 ID，另一个包含带有员工 ID 和部门的员工 ID。在这种情况下，为了获得每个员工的完整信息，我们可以合并这两个数据集。最终的数据集仍将为每位员工提供一个观察值，但它将同时包含薪水和部门变量。

# Data set 1	
ID NAME SALARY	
1 Rick 623.3		 
2 Dan 515.2 		
3 Mike 611.5 		
4 Ryan 729.1 
5 Gary 843.25 
6 Tusar 578.6 
7 Pranab 632.8 
8 Rasmi 722.5 

# Data set 2
ID DEPT
1 IT 
2 OPS
3 IT 
4 HR 
5 FIN 
6 IT 
7 OPS
8 FIN 

# Merged data set
ID NAME SALARY DEPT	
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN

上述结果是通过使用以下代码实现的，其中 BY 语句中使用了公共变量（ID）。请注意，两个数据集中的观察结果都已在 ID 列中排序。

DATA SALARY; 
   INPUT empid name $ salary  ; 
DATALINES; 
1 Rick 623.3		 
2 Dan 515.2 		
3 Mike 611.5 		
4 Ryan 729.1 
5 Gary 843.25 
6 Tusar 578.6 
7 Pranab 632.8 
8 Rasmi 722.5 
;
RUN; 
DATA DEPT; 
   INPUT empid dEPT $ ; 
DATALINES; 
1 IT 
2 OPS
3 IT 
4 HR 
5 FIN 
6 IT 
7 OPS
8 FIN 
;
RUN; 
DATA All_details;
MERGE SALARY DEPT;
BY (empid);
RUN;
PROC PRINT DATA = All_details; 
RUN;

匹配列中的缺失值

可能存在公共变量的某些值在数据集之间不匹配的情况。在这种情况下，数据集仍然会合并，但在结果中会给出缺失值。

例子

考虑数据集工资中缺少员工 ID 3 和缺少表单数据集 DEPT 中的员工 ID 6 的情况。当应用上述代码时，我们得到以下结果。

ID NAME SALARY DEPT	
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 .		.		IT
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   .
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN

仅合并比赛

为了避免结果中的缺失值，我们可以考虑仅保留具有公共变量匹配值的观察值。这是通过使用IN语句实现的
。SAS程序的merge语句需要修改。

例子

在下面的示例中，IN = 值仅保留数据集SALARY和DEPT中的值匹配的观测值。

DATA All_details;
MERGE SALARY(IN = a) DEPT(IN = b);
BY (empid);
IF a = 1 and b = 1;
RUN;
PROC PRINT DATA = All_details; 
RUN;

使用上述更改部分执行上述 SAS 程序后，我们得到以下输出。

1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN