자격증/데이터분석가[ADsP]

[ADsP] 3과목 기출 + 주관식 정리

FintechPark 2021. 3. 8. 18:00

ADsP 3과목 기출


  ADsP 주관식 기출 문제 (3과목)
1 SQL 활용하거나 SAS에서 porc sql로 작업하던 사용자들에게 R프로그램에서 지원해주는 패키지는? sqldf()
2

출력 결과는?
x <- 1:100
sum(x>50)

x는 1부터 100까지의 수
x가 50 이상일 때만 true, 즉 1이므로
1+1+...+1 = 50.
답 = 50
3 여러 대상 간의 객관적 또는 주관적 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법으로 설문지 응답자의 개개인의 유사성과 선호도 차이를 시각화하여 보고 설명하는 통계적 방법론 다차원 척도법
4 평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값(outlier)으로 판단하고 t 3으로 설정하는 이상값 검색 알고리즘은?

ESD(Extreme Studentized Deviation)

5 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 설명변수를 제거하는 방법 후진제거법
6 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고, 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법 계통추출방법
7 귀무가설(H0)이 옳은데 귀무가설을 받아들이지 않고 기각하게 되는 오류  제 1종 오류
8  조사하기 위해 추출한 모집단의 일부 원소 표본(Sample)
9 다차원척도법은 여러 대상간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적으로 (ㄱ)로 시각화는 방법이다. 거리
10 통계적 추론에서 (ㄱ)검정은 자료와 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정방법으로, 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용한다.
비모수
11 상관분석은 데이터 안의 두 변수간의 관계를 알아보기 위해 상요한다. 두 변수간의 상관관계를 알아보기 위해 상관계수를 이용한다. 상관계수 중 서열척도인 변수간의 상관관계를 측정하는데 사용하는 상관계수 
스피어만 상관계수
12 시계열자료를 분석하는 목적 중 하나는 과거의 패턴이 유지된다는 가정 하에서, 현재까지 수집된 자료를 분석하여 미래에 대한 예측을 하는 것이다. 이를 위해 전체 자료를 이용하는 대신 최근 m개의 관측값들만의 평균을 구하여 지엽적인 변동을 제거하여 장기적인 추세를 쉽게 파악할 수 있는 방법

자기회귀모형
(AR모형 : AutoRegression Model)

13 자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치한 수치이다. 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적인 방법
중앙값
14 이것은 인공신경망의 한계를 극복하기 위해 제안된, 심화신경망을 활용한 기계학습 방법이다. 기존의 인공신경망은 높은 분해 정확도에 비해 속도가 느린 것이 단점이었다. 게다가 과적합도 웬만해선 해결되지 않는 과제였다. 연구자들이 그에 대한 해법을 내놓으면서 다시 각광을 받기 시작한 이 기법은?
딥러닝
15 분류할 데이터와 주어진 데이터의 모든 거리를 계산하여 가까운 거리의 데이터를 K개 만큼 찾은 후 그 중에서 가장 빈도수가 높은 클래스로 분류해주는 기법
KNN
16 최적화방법은 우리 생활과 밀접하게 연관되어 있다. 어떤 물건을 구입할 때 우리는 몇 가지 대안 중에서 재정적인 고려와 함께 구입 이유, 사용 기간, 가격 등 여러 조건을 비교 검토한 후 결정을 내린다. 이러한 결정을 내릴 때 최대 효과, 최소 비용, 최고의 선택과 같은 최적화의 개념을 인식하게 된다. 이러한 최적화 방법 중 가장 많이 사용되는 방법은?
선형계획법
17  실제 상황을 수학적으로 모델화하고, 그 모델을 컴퓨터에 프로그램으로 저장한 후, 일어날 수 있는 모든 상황을 입력하여 각각의 경우에 어떤 결과가 도출되는지 예측하는 것은?
시뮬레이션
18 연관성 분석에서 "전체 거래 중 항목 A와 항목 B를 동시에 포함되는 거래의 비율"로 정의되는 것
지지도
19 연관성 분석에서 "상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율"
신뢰도
20 연관성 분석에서 "상품 A가 주어지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율"
향상도
21

R의 결과는?

X <- c(1,2,3,NA)

mean(X)

답: NA
(NA는 결측치로서 평균을 구할 수 없다.)
22 분류분석의 모형평가 방법으로 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프
향상도 곡선
23 오분류표를 활용하여 모형을 평가하는 지표 중 범주 불균형을 가지고 있는 데이터에 대한 중요한 범주만을 다루기 위해 사용되는 지표로 실제값이 False인 관측치 중 예측치가 적중한 정도를 나타내는 지표
특이도
24 코호넨에 의해 제시되었으며 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도를 형상화하는 클러스터링 방법

SOM(Self-Organizing Map)


25 혼합분포군집은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대 가능도 추정에 사용되는 알고리즘은?
EM 알고리즘
26 분류 모형의 성능을 평가하기 위하여 x축에는 (1-특이도), y축에는 민감도를 나타내어 이 두 평가값의 관계를 나타낸 그래프는?
ROC 곡선
27 어떤 항목집합이 빈발한다면, 그 항목집합의 모든 부분집합도 빈발하다는 원리로 연관 규칙 알고리즘 중에서 가장 먼저 그리고 많이 사용되고 있는 알고리즘은?
Apriori 알고리즘
28 다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습이라고 한다. 여러 분류기들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법
앙상블 기법
29
y와 x1, x2 사이의 적합한 회귀식을 작성하시오.

lm(formula = y ~ x1 + x2)

Coefficient

              Estimate
(Intercept)    0.11  
      x1        0.21
      x2        0.31

y =
0.11+0.21*(x1)+0.31*(x2)