데이터 분석 이전에

데이터를 통해 얻고자 하는 것은 무엇일까?

IT 시대에 도래하면서 모든 기기를 사용함에 있어 정보가 기록이 되고있다.

그리고 우리는 이 정보를 활용하고자 한다.

데이터를 통한 의사결정.

Data driven

그렇다면 고민에 빠진다.

데이터를 어떻게 바라보고 어떠한 기준으로 유의미한 데이터라고 판단할 수 있는가?

1. 상관관계 & 인과관계

2. 데이터 신뢰도

3. black box

4. handling of web data

5. 윤리

6. underfit, overfit

첫번째 상관관계, 인과관계의 구분

혼용해서 사용하는 경우가 많다. 그리고 구분해서 사용할 필요가 있다.

ex) 키가 클수록 몸무게가 많이 나간다. 나이와 성별 그리고 교통사고율

상관관계와 인과관계를 구분해서 의사결정 판단에 잘못된 영향을 주지 않도록 하자.

두번째 데이터 전처리 및 분석이 적절한가?

데이터의 신뢰성을 판단할 수 있는 대표적인 방법 5

1. error bar를 추가한 그래프

2. 통계 테스트 찾기

3. 아웃라이어 제거

4. 데이터 표준화

5. EDA

공부하면서 더 자세하게 다뤄볼 예정이다.

error bar가 없는 데이터 그래프는 취급하지 않는다고 하니 주의하자.

세번째 blackbox

도출된 결과로 결정한 이유를 알 수 없는 모델을 사용할 수 없다는 측면에서 나왔다.

지금까지 모델의 정확도, recall, MSE 등 평가지표를 활용해서 성능 향상만을 바라봤었는데

그게 전부가 아니라는걸 알게됐다.

어렴풋이 느끼고 있었다.

데이터를 넣었고 학습을 시켰고, 예측 성능을 확인을 했는데

단순히 이걸로 된걸까? 실제로 사용할 수 있는 모델일까? 판단 근거가 없는데

ex) 00 해주는 AI 그리고 사용하는 소비자.

소비자 입장에서 AI가 어떤 과정으로 판단을 하였는지 알아야 사용할 수 있다.

설명력 또한 성능만큼이나 중요하다.

따라서 Saliency map, SHAP과 같이 post-hoc explainability를 제공하는 기술이 생겼다.

사후 모델 검증방식으로 결정을 내린 후에야 결정 이유를 알 수 있다.

과정을 따라가기 위해서는 interpretable 과정이 필요하지만 구현이 어렵다.

단 하나의 픽셀만 바뀌어도 인식에 문제가 생기고 우리가 만든 모델이 노이즈에 얼마나 민감한지 확인할 필요가 있다.

판단 근거가 중요한 이유는 인간이 살아가는 세상에는 많은 변수가 있기 때문이지 않을까?

하지만 모델에는 특정된 데이터로만 판단된다. 모든 경우의 수, 상관계수를 가진 변수를 포함하기에는 무리일 수 있다.

인간은 신체기관을 통해 수많은 데이터를 한번에 받아들이고

뇌에서는 앞선 경험을 바탕으로 판단, 결정, 행동을 한다.

하지만 AI에 활용되는 데이터는 우리가 직접 일일이 넣어줘야하기에

한계가 있을 수 있음이 느껴진다.

네번째 handling the web data

인터넷이 활성화되면서 중요하게 된 능력이있다.

지금 접하고 있는 정보의 참 거짓을 판단할 수 있는 능력

현재 웹상에는 참 , 거짓을 알 수 없는 많은 데이터들이 떠돌고 있다.

인포데믹 현상

그리고 거짓된 데이터로 많은 이들이 고통받고 피해를 받는 상황이 이어진다.

웹에서 퍼지는 데이터의 특징이 있다.

' 빠른 복제로 정보 제거가 어렵다는 점 '

따라서 글을 잘성할때, 정보를 올릴 때 이 정보가 사실인지 경각심을 가질 필요성이 있다.

Spiral of silence : 의견의 대표성(많이 언급되는 토픽이 중요한 토픽을 의미하는 것이 아닐 가능성

인터넷 상의 의견이 대표성이 있는 의견이 아닐 수 있음을 인지. 정보 전파, 봇의 참여, 극단화 현상 주의)

다섯번째 AI 윤리

윤리에 대한 법적 제도(GDPR) : 혐오 표현 , 광고 노출 등에 대해서 편향된 정보를 제공해서는 안된다.

예를들어 종교, 인종, 성별에 기반한 알고리즘으로 개인화 추천 광고를 노출하지 않고, 테러 선동, 아동 학대 등 불법 컨텐츠 유통을 막아야 한다.

단순한 서비스를 넘어 사회의 윤리적 문제를 고려할 수 있어야 함.

AI Eithical decision

compas : 피고의 미래 범죄 위험을 점수로 예측하는 sw tool -> 인종차별이 있다는 보고서

우리가 만드는 알고리즘에 사회의 편향을 조장하는 것은 아닌지 고려는 필수적이다.

MS tay : 사용자가 챗봇에게 백인우월주의, 무슬림혐오에 대해 학습한 경우

여섯번째 underfit & ovefit

일반화 성능

위에 말했듯이 세상에는 변수로 작용하는 요인들이 많다

모델을 만들때 모두 고려했다고 보장할 수 없다.

너무 과하게 된 학습은 미래 예측에 도움이 안될 수 있다.

'TECH > AI' 카테고리의 다른 글

Multi CUDA - ubuntu 24.04 (1)	2024.09.25
CNN : CV #1 (0)	2024.09.21
RNN, LSTM, GRU \| 자연어처리 #2 (0)	2024.09.21
Introducing RAG (0)	2024.09.11
자연어의 특징\| 자연어처리 #1 (0)	2024.09.11

think with MIFF

데이터 분석 이전에

'TECH > AI' 카테고리의 다른 글

티스토리툴바

데이터 분석 이전에

'TECH > AI' 카테고리의 다른 글

'TECH/AI' Related Articles

티스토리툴바