LG Aimers 교육/AI 윤리

데이터 분석과 AI 윤리

나영수 2023. 7. 3. 16:24

part1. 데이터 분석과 AI학습에서 유의할 점

1. 데이터를 잘 해석하고 있는가?

2. 데이터 전처리와 분석방법

- 적합한 통계 테스트 찾기

- 아웃라이어 제거하기(너무 크거나 작은 값들을 제거해야한다.)

- 데이터 표준화, 정규화하기

- EDA(exploratory data analysis)를 통한 데이터 깊이 분석 -> 가격 필드에 음수값이 있지는 않은가?

3. 학습에 쓰는 데이터의 양

4. 블랙박스 형태의 AI 

-> 설명가능한 AI, 즉 AI 모델의 결정에 사후 설명력을 더하는 것이 중요한 쟁점 중 하나가 되고있다. -> 하지만 설명가능하게 만들기 위해서는 모델의 신뢰성이 없어지는 경우도 있기 때문에 노이즈에 어느정도 저항성을 가지는 모델이 필요하다.

5. Web data를 사용

- 의견의 대표성(spiral of silence) 때문에 편향 현상이 나타나서 전파되기도 한다. 따라서 오정보의 빠른 확산으로 인포데믹 현상이 일어날 수 있다.
인포데믹이란 사실정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부화 현상을 의미한다. 따라서 대표성, 진실성을 가지는지에 대한 여부를 정확히 판단할 수 있어야한다.
데이터가 인터넷 서비스에 저장되어져서 유출되는 경우도 있기 때문에 많은 사용자들이 데이터의 삭제를 할 수 있는 기능을 추가하기를 원한다고 한다.

6. 윤리에 대한 법적 제도

GDPR

7. AI 와 Ethical 결정 

COMPAS(Correctional Offender Management Profilling for Alternative Sanctions) -> 앞으로 피고의 재범률을 통계로 제공하는 서비스(판사들의 의사결정을 지원하기 위해 사용)
이렇게 만든 AI들이 사회의 편향을 조장하고 있는 것은 아닌지 객관적으로 판단해봐야한다.

part2. 윤리적 관점에서의 AI

1. AI 와 창작

-> 예술의 영역은 인간만이 할 수 있는 분야로 했지만 요즘에는 GAN이나 다른 모델들로 이미지 혹은 음악과 같은 영역에서 창작을 시도하고 있다. 대형 플랫폼마다 초거대 언어 모델(자연어처리 모델)을 개발한다. 또한 소설, 토론과 같이 인간만이 할 수 있다고 생각했던 분야에 AI가 조금씩 접근하고 있다.

2. 예술작품

-> 15000여개의 데이터를 통해서 학습을 하고 예술작품을 창작해 내었는데 그렇다면 수익분배도 학습을 하게 해준 여러 데이터 제공자 및 프로그래머에게도 해줘야하는 것인가? 라는 문제점이 생겼다. 
1. 실직적으로 학습에 사용된 데이터를 제공한 사람에게도 혜택이 돌아가기는 어렵다. 2. 창작자인 AI는 법적 권리를 제공할 수 있는 법적 제도가 없다.
3. 현존하는 예술가의 스타일을 따라하면 상업적 피해를 줄 수 있다.