카테고리 없음

3/4 짬내서 공부하는 빅분기 (1) 욕심이 과하면 화를 부를까..?

여러가지 공부를 하고 있습니다. 2025. 3. 5. 00:19

 

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 전기기사 + 일본어 + 파이썬 + 빅분기 여러가지 맨날 짬뽕으로 공부하다 보니까 효율이 더 떨어지는 것 같다 ㅠㅠ 기억도 안나는 거 같고.. 

 

하지만 어쩌랴!!!! 전기기사 + 일본어 = 회사에서 필요 (일본계 회사이기도 해서..  강요는 아니다)

 

파이썬 + 빅분기 = 내가 공부하고 싶어서 하는 거니까 포기할 수 없다!!! 네 마리의 토끼를 다 잡겠다 

 

욕심이 과하면 화를 부른다곤 하지만....

 

더 열심히 살면 되는거니까!!

 

그리고 전기기사 일본어는 쉬엄쉬엄 하는거니 지금은 내가 공부하고 싶은 거 더 열심히 하련다!! 

 

 

정보처리기사 + 산업안전기사 자격증을 취득하면서 자격증을 취득하는 것에 대해서 살짝 맛을 들린 것 같기도하다..

 

빅분기도 굳이 필요 없을 것 같긴하지만 데이터를 해석하는 방법, 빅데이터가 뭔지 등등.. 알고싶기도 하고 내가 궁금했던 것을 푸는 것과 동시에 공부도 할 수 있기 떄문에 나에겐 일타 쌍피이다..  

 

어쨌든 공부 시작해보자 (일단 시험이 우선이기 때문에 암기 느낌으로 공부할거다)

 

 

1. 빅데이터의 이해

 

빅데이터 전에 데이터란 뭘까?

 

있는 그대로의 객관적 사실, 가공되지 않은 상태를 의미함 (주문수량) 

 

이런 데이터를 가공하면 정보(베스트 셀러)가 됨

 

- 빅데이터 출현 배경

 

: 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 이용한 분산 컴퓨팅, 비정형 데이터 확산 

 

- 빅데이터 활용 위한 3대 요소

 

: 인력, 자원(데이터), 기술  -> 인자기

 

- 빅데이터 3V (가트너 정의)

 

(1) Volume(규모) : 데이터 양 증가 

(2) Variety(다양성) : 데이터 유형 증가

(3) Velocity(속도) : 데이터 생성, 처리 속도 증가

(4) 그 외 5V에 포함되는 요소

- Value(가치)

- Veracity(신뢰성)

 

- DIKW 피라미드

(1) 데이터(Data) : 있는 그대로의 사실 (A라는 곳의 가전제품 100만원, B대리점 가전제품 200만원)

(2) 정보(Information) : Data를 통해 패턴 인식 (A에서 가전제품이 더 싸다)

(3) 지식(Knowledge) : 패턴을 통해 예측 (A에서 가전제품을 구매하면 이득이겠군)

(4) 지혜(Wisdom) : 창의적인 산물 (A가 B보다 다른 제품도 더 저렴하지 않을까?)

 

그래서 우리의 빅데이터 분석의 목적은 데이터를 통해 지식 + 지혜를 얻어가는 것!

 

- 암묵지, 형식지간 상호작용

 

- 암묵지 : 개인에게 습득되고 겉으로 드러나지 않음

- 형식지 : 문서, 매뉴얼 등의 형상화된 지식

 

1) 공통화 : 암묵지 지식을 다른 사람에게 알려줌

2) 표출화 : 암묵지 지식을 매뉴얼이나 문서로 전환

3) 연결화 : 교재, 메뉴얼에 새로운 지식 추가

4) 내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득

 

-> "공표연내"

 

- 데이터베이스의 정의

 

(1) DB: 일정 구조에 맞게 조직화된 데이터의 집합

 

- 스키마 : DB 구조와 제약조건에 관한 전반적 명세

- 인스턴스 : 정의된 스키마에 따라 저장된 값

 

(2) DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어

 

1) 관계형 DBMS : 테이블(표)로 정리

-> 오라클, MSSQL, MYSQL, MARIA DB

 

2) 객체지향 DBMS : 정보를 객체형태로 정리

3) NoSQL DBMS : 비정형 데이터를 저장하고 처리 

(HBASE, Mongo DB, Dynamo DB, Cassandra)

 

3) SQL : 데이터 베이스에 접근할 수 있는 하부언어

 

- 정의언어(DDL) : CREATE, ALTER, DROP

- 조작언어(DML): SELECT, INSERT, DELETE, UPDATE

- 제어언어(DCL) : COMMIT, ROLLBACK, GRANT, REVOKE

 

- 데이터베이스의 특징 

 

공용 데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용

통합된 데이터 : 동일한 데이터 중복되어 있지 않음

저장된 데이터 : 저장매체에 저장

변화되는 데이터 : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지 -> 무결성

 

-> 공통저변 

 

- 데이터베이스의 구성요소

 

메타데이터 : 데이터를 설명하는 데이터

인덱스 : 정렬, 탐색을 위한 데이터의 이름 

 

- 빅데이터가 만들어내는 변화

 

(1) 표본조사 -> 전수조사 

(2) 사전처리 -> 사후처리

(3) 질 -> 양

(4) 인과관계 -> 상관관계

 

- 데이터 사이언스

- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문

- 정형/비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)

 

- 데이터 사이언스 핵심 구성요소

 

(1) Analytics : 이론적 지식

(2) IT: 프로그래밍적 지식

(3) 비즈니스 분석 : 비즈니스적 능력 

 

- 데이터 사이언티스트의 필요역량

 

(1) 하드 스킬 : 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함

(2) 소프트 스킬 : 스토리텔링, 리더쉽, 창으력, 분석 등 

 

- 하둡(Hadoop)

 

- 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 박데이터 솔루션 

 

- 데이터 단위

 

KB < MB < GB < TB < PE <EB < ZETTA < YOTTA 패지요!! (화나는 사람 생각하면 드는 생각?)

 

빅데이터 조직 및 인력

 

조직 및 인력방안 수립 (DSCoE: 분석조직)

 

집중 구조 : 독립적인 전담 조직 구성 (중복 업무 가능성 존재)

기능 구조 : 해당 부서에서 직접 분석 (DSCoE가 없음)

분산 구조 : 분석 조직 인력을 현업 부서에 배치 

 

-> 집기분 

 

빅데이터 플랫폼의 계층 구조

 

(1) 소프트웨어 계층

- 데이터 수집 및 정제, 데이터 처리 및 분석, 사용자/서비스 관리

 

(2) 플랫폼 계층

- 데이터 및 자원의 관리, 작업 스케줄링, 프로파일링

 

(3) 인프라스트럭처 계층

- 자원의 배치 및 관리, 저장장치 및 네트워크 관리 

 

-> 소프트웨어가 상위 계층, 인프라스트럭처가 하위 계층 

 

빅데이터와 인공지능

 

인공지능, 머신러닝, 딥러닝의 관계

 

딥러닝 -> 머신러닝 -> 인공지능 

 

머신러닝의 종류

 

- 지도학습: 정답을 알려주고 학습시키는 방법

- 비지도학습 : 정답을 가르쳐주지 않고 학습시키는 방법

- 강화학습 : 에이전트가 보상을 받기 위해 학습하는 방법

 

약인공지능, 강인공지능

 

- 약인공지능 : 주어진 조건에서만 동작하는 인공지능

- 강인공지능 : 인간과 동일한 사고가 가능한 인공지능 

 

경량 딥러닝 학습 기법

 

 - 전이학습 : 사전에 훈련된 모델을 재사용하는 학습 방식 ( A 라는 모델이 B라는 모델에게 전이하는 것 그리고 B는 미세하게 재조정 하는것 (Fine Tuning))

-  Fine-Tuning : 학습된 모델을 특정 타겟에 맞게 재조정하는 방법 

- 지식증류 : Teacher Network의 지식을 Student Network에 전달하는 방법 

 

- 분석 대상과 방법 

대상/방법 Known Unknown
Known 최적화 (Optimization) 통찰 (Insight)
Un-Known 솔루션 (Solutuin) 발견 (Discovery)

 

- 분석 기획 방안

  과제 중심적 접근 장기적 마스터 플랜
목적 빠르게 해결 지속적 분석 원인 해결
1차 목표 Speed & Test Accuracy & Deploy
과제 유형 Quick & Win Long Term Vuew
접근 방식 Problem Solving Problem Definition

 

- 의사결정을 가로막는 요소

 

프레이밍 효과 : 동일 상황임에도 개인의 판단, 결정이 달라짐