-
ADsP 간단정리 - 1,2 주차 강의ADsP 2024. 4. 22. 11:40
데이터의 이해
Datum / Dare
존재적 특성 - 객관적 사실 - 과목점수
당위적 특성 - 추론`예측`전망`추정 근거 - 평균점수
정성 / 정량적 데이터
정형 / 비정형 / 반정형 데이터
-DB / NoSQL / HTML
정형 : 행과 열로 표현된 표형식 - 관계도
비정형 : 대용량 Data 분석`분산 처리 용의
암묵 / 형식지
내면화 , 공통화 / 표출화 , 연결화
DIKW
Data - 관계없는 단순 수치 나열
Information - 연관 관계 속 의미 : OX
Knowledge - 경험 결합 의미 : 행동 근거
Wisdom - 창의적 산물 : 기존 근거 외 예상, 예측
ISSC
통합 - Integrated / 저장 - Stored / 공용 - Shared / 변화 - Changed
되는 데이터
정보 축적 및 전달 측면 : 기계
정보 이용 측면 : 사용
정보 관리 측면 : 데이터 관리
정보 기술발전 측면, 경제`산업측면
OLTP / OLAP
Online TRANSACTION / ANALYTICAL Processing
데이터 수시로 갱신(CRUD) / 정보 위주 분석 처리
CRM / ERP / RTE / EAI ....
물류 / 지리`교통 / 의료 / 교육 등
데이터의 가치와 미래
3V +V
volumn, variety, velocity (value, veracity, validity, volatility, visualization)
맥킨지,2011 : 빅데이터 - 일반적 저장,관리,분석 범위 초과하는 규모의 데이터
출현배경
산업계 - 축적 보유 : 양`질 전환법칙
학계 - 아키텍쳐 및 통계 도구 발전
기술발전 - 디지털화, 저징기술의 발달(용량 증가,가격하락), ~~ 분산처리 기술
비유
산업 혁명의 석탄,철 / 21세기의 원유 / 렌즈 / 플랫폼
사전처리->사후처리
표본조사 ->전수조사
질 -> 양
인과관계 - >상관관계
빅데이터 가치 산정의 어려운 이유
데이터 활용방식 / 새로운 가치 창출 / 분석 기술 발전
대상 : EGP(기업, 정부, 개인) - 생활 전반의 스마트화
연관규칙학습
변인들간 상관관계
유형분석
분류,그룹화,특성분류 등
유전자 알고리즘
'최적화' - 진화
기계학습
훈련 데이터 기반 알려진 특성 으로 예측
회귀분석
독립변수 - 종속변수 (원인-결과)
비정형
감정분석
특정 주제 감정 분석
소셜네트워크분석(=사회관계망분석)
관계도, 영향력
위기요인
사생활 침해 / 책임 원칙 훼손 / 데이터 오용
통제방안
동의->책임으로 / 결과 기반 책임 고수 / 알고리즘 접근 허용
데이터 마스킹 / 가명 처리 / 통계 처리 / 데이터 값 삭제 / 데이터 범주화
산업별 어플리케이션
~~~ , 에너지 - 트레이딩 ,~~~
빅데이터 : 정형 비졍형을 포함하여~
데이터 사이언스의 영역
analytics : 분석적 영역 - 수학 확률모델 등
비즈니스 분석 : 커뮤니케이션, 프리젠테이션, 스토리텔링, 시각화 등
IT : 데이터 엔지니어링, 웨어하우스 등
HARD SKILL & SOFT SKILL
H : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
S : 통찰력 있는 분석, 설들력 있는 전달, 다분야 간 협력
-> 인문학 열풍 : 컨버젼스 -> 디버젼스\
가치 패러다임
과거 : digitalization / 어떻게 왜?
현재 : connection / 차선 행동 결정
미래 : Agency / 최악, 최상 예상