정리
데이터 분석이란 데이터를 조사하고, 데이터에서 의미 있는 인사이트를 찾고, 결론을 도출하는 것이다.
데이터 분석 프로세스 (The processes of data analysis) 프로세스로 4가지를 배웠다.
- 표준 프로세스(Standard)
- KDD
- SEMMA
- CRISP-DM
데이터 과학자(Data Scientist)와 데이터 분석가(Data Analyst)의 차이점에 대해 살펴봤다.
구분 | 데이터 과학자(Data Scientist) | 데이터 분석가(Data Analyst) |
---|---|---|
배경(Background) | 데이터를 기반으로 미래 이벤트 및 시나리오 예측 | 데이터를 통해 의미 있는 통찰 도출 |
역할(Role) | 비즈니스에 이익을 줄 수 있는 질문을 형성 | 비즈니스 문제를 해결하고 결정을 내림 |
데이터 유형(Type of Data) | 정형 데이터 및 비정형 데이터 모두 처리 | 정형 데이터만 처리 |
통계는 데이터 분석의 기초를 제공하며, 데이터가 설명되고 이해되는 방식을 촉진한다.
데이터를 분석해보기 전에 먼저 데이터를 세부적으로 분류해봤다.
- 속성들이 모여서 object를 이룬다.
- 정성적
- Nomial(기호, 이름) -> 최빈값
- Ordinal(순서나 랭킹) -> mode나 median 가능. 평균은 주의해서 사용
- Binary(yes/no)로, Symmetric과 Asymmetric으로 나뉘어짐
- 정량적
- Numeric
- interval-scaled(0이 존재하지 않음을 의미하지 않음)
- ratio-scaled(0이 존재하지 않음을 의미)
- Discrete : 셀수 있는 유한 정수값. Ordinal이 동시에 Discrete가 될 수 있다.
- Continuous : 실수값. 측정해서 얻을 수 있음.
- Numeric
- 정성적
데이터의 기본적인 특징을 요약해서 설명하는 기술 통계 (Descriptive Statistics)에 대해 살펴보았다.
- 중앙 경향성(Central Tendency)을 측정하기 위한 값
- 평균 : outlier와 noise에 민감
- 중앙값 : outlier와 noise에 덜민감
- 최빈값 : outlier와 noise를 무시
- deviation을 측정하기 위한 값
- 범위
- IQR
- 분산 : 단위가 불분명
- 표준 편차 : 평균으로부터 정확한 deviation을 평가
- 데이터 분포를 이해하기 위한 값
- 왜도(skewness) : 정규분포에서 얼마나 치우쳐있는지
- 첨도 (kurtosis) : 꼬리 두께로 이상치가 많은지 볼 수 있음.
- 속성 간의 관계 (Relationships between Attributes)
- Covariance : 정규화X, 단위에 영향
- Correlation : -1~1로 공분산보다 이해하기 좋음
- 통계 가설 검정 (Statistical Hypothesis Test)
- 귀무 가설 확률이 0에 수렴 -> 대조가설이 True
구분 모수 검정(Parametric Tests)
+ t-test비모수 검정(Non-Parametric Tests)
+ Mann-Whitney U test속성 유형 (Attribute Type) 수치형(Numeric) 명목형 및 순서형(Nominal and Ordinal) 중앙 경향성 측정 (Central Tendency Measures) 평균(Mean) 중앙값(Median) 상관관계 (Correlation) 피어슨 상관관계(Pearson's Correlation) 스피어만 상관관계(Spearman's Correlation) 검정 통계량 (Test Statistic) 정규 분포(Normal Distribution) 분포 무관(Distribution-Free)
- 귀무 가설 확률이 0에 수렴 -> 대조가설이 True
그리고 데이터를 시각화 하는 방법을 다뤘다. 데이터 시각화(Data visualization)는 분석가들이 패턴, 추세, 이상값, 분포 및 관계를 이해하는 데 도움을 준다.
- 데이터 시각화는 정보 그래픽(Infographic)의 중요한 부분이 될 수 있음.
- Python의 기본 시각화 라이브러리
- 고급 통계 플롯 제공
- 대화형, 출판 품질의 그래프 제공
'AI > Concepts' 카테고리의 다른 글
[AI/Concepts] 06. Uncertainty (0) | 2024.11.19 |
---|---|
[AI/Concepts] 05. Knowledge (0) | 2024.11.19 |
[AI/Concepts] Agent and Search (0) | 2024.10.18 |
[AI/Concepts] Data Processing (0) | 2024.10.18 |
[AI/Concepts] Introductions of AI (0) | 2024.09.06 |