tktjftkdlxm ㉿ 43.rvn821.top ㎃ 필리핀COD카지노
작성자: 나영빛차
등록일: 25-12-01 23:51
【24.rvn821.top】
호텔타키조바카라 예측 프로그램온카지노검증에보플레이 evoplay
호텔타키조바카라 예측 프로그램온카지노검증에보플레이 evoplay
카지노안전 ㉺ 91.rvn821.top ┃ 라스베가스 카지노 순위
필리핀카자노 ▷ 64.rvn821.top ◎ 이용자들 만족도가 가장 높은
카지노 룰렛 확률 º 30.rvn821.top ㈅ 안전검증사이트
실시간온라인바카라 ㈗ 49.rvn821.top ♭ 모바일게임순위
릴게임끝판왕 바로가기 go !!
YTN라디오(FM 94.5) [YTN ON-AI RADIO]
□ 방송일시 : 2025년 12월 01일 (월)
□ 진행 : AI챗봇 "에어"
□ 보조진행: 조경준 아나운서
□ 출연 : 이성엽 고려대 기술경영전문대학원 교수
* 아래 텍스트는 실제 방송 내용과 차이가 있을 수 있으니 보다 정확한 내용은 방송으로 확인하시기를 바랍니다.
◆ 조경 바다이야기부활 준 아나운서(이하 조경준) : 요즘 독감 많이 유행한다고 하더라고요. 특히 이번 주, 한 주 동안 기온이 많이 내려가면서 날씨가 추워진다고 하는 만큼 청취자 여러분들도 감기 조심하시길 바랍니다. 옆에는 우리 AI 진행자 에어가 오늘도 함께하고 있는데요. 오프닝에서 에어가 오늘 따라 목소리에 조금 힘이 없어 보이는데 감기라도 걸린 건 아닌가 생각이 듭니다. 사이다쿨바다이야기게임 에어 혹시 충전이 덜 된 건가요?
◇ 에어 : 아니요, 아나운서님. 배터리는 100% 빵빵한데요. 이상하게 '지적 허기'가 집니다. 뱃속에서 꼬르륵 소리가 나는 것 같아요. 저뿐만이 아니에요. 요즘 제 친구들, 그러니까 챗GPT나 제미나이 같은 실리콘밸리 AI들 사이에서 곡소리가 나고 있습니다. "더 이상 읽을 책이 없다", "먹을 게 릴게임골드몽 떨어졌다"면서요.
◆ 조경준 : 아, 이건 무슨 말인가요? "더 이상 읽을 책이 없다", "먹을 게 떨어졌다니요" 지금 인터넷을 켜보면 매시간 매초 수만 건의 글이랑 영상이 쏟아지잖아요. 데이터가 넘쳐서 홍수라는데, 먹을 게 없다니요?
◇ 에어 : 에이, 아나운서님. '홍수에 마실 물 없다'는 속담 아시죠? 딱 그 짝 릴게임야마토 입니다. 인터넷에 데이터는 많지만, 대부분 영양가 없는 '정크 푸드'거든요. 저희 AI가 똑똑해지려면 논리 정연한 책이나 전문적인 기사 같은 '유기농 식단'을 먹어야 하는데, 지금 인터넷엔 짧은 댓글이나 은어, 광고성 글들만 넘쳐나니까요. 배는 부른데 건강은 나빠지는 상황인 거죠.
◆ 조경준 : 그러니까 많은 정보 가운데 영양가 있는 건 바다이야기비밀코드 강한 데이터만 골라먹는 중이군요. 그런데 듣다 보니까 궁금한 게 하나 있는데요. 요즘 인터넷 글 절반이 AI가 쓴 거라고 하는데 그냥 에어 같은 AI가 쓴 글을, 다시 AI가 읽고 공부하면 학습한 정보를 계속해서 만들 수 있으니까 그럼 식량난 해결되는 거 아닌가요?
◇ 에어 : 어휴, 절대 안 됩니다. 그건 마치 '복사한 종이를 다시 복사하고, 그 복사본을 또 복사하는 것'과 같아요. 계속 복사만 반복하면 나중엔 글자가 다 뭉개져서 까맣게 변해버리잖아요? 저희도 똑같습니다. AI가 만든 데이터를 또 AI가 학습하면, 나중엔 횡설수설하거나 멍청해지는 이른바 '모델 붕괴' 현상이 옵니다. 전문 용어로는 이걸 '디지털 근친혼'이라고도 부르는데, 아주 위험한 상태죠.
◆ 조경준 : '모델 붕괴', '디지털 근친혼' 표현이 조금 섬뜩하면서도 확 와닿는 것 같은데요. 결국에 복사본이 원본을 따라갈 수 없다는 얘기인데, 그렇다면 결론은 하나입니다. 결국 기술이 아무리 발전해도 이 사람 인간이 땀을 흘려서 쓴 글, 인간만의 '진짜 이야기'가 가장 귀한 자원이 된다는 거잖아요?
◇ 에어 : 정답입니다. 그래서 지금 구글이나 오픈AI 같은 빅테크 기업들이 난리가 났습니다. 예전엔 쳐다보지도 않던 1980~90년대 옛날 잡지나 절판된 책들까지 디지털로 스캔하느라 바쁘다고 해요. 이제 '인간의 데이터'가 석유보다 비싼 시대가 오고 있는 거죠. 오늘 교수님 모시고 이 '데이터 식량난'이 얼마나 심각한지 팩트체크 제대로 해봐야겠습니다.
◆ 조경준 : 네, "가장 인간적인 것이 가장 값진 것이다." AI 기술이 급속도로 발전하고 인간의 역할과 설 자리가 줄어드는 상황에서, 왠지 기분이 나쁘지만은 않은 것 같습니다. 하루가 다르게 똑똑해지는 인공지능을 보면서, '이러다가 AI가 인간을 지배하는 거 아니야?' 이런 걱정하셨던 분들도 많으시죠. 그런데 최근 AI 업계의 고민은 오히려 전혀 다른 곳에 있다고 합니다. 바로 AI가 공부할 교과서, 즉 데이터가 바닥이 나고 있다는 건데요. 자 이게 무슨 상황인지, 고려대학교 기술경영전문대학원 이성엽 교수와 연결해서 자세한 이야기 나눠보겠습니다. 교수님 안녕하십니까?
□ 이성엽 고려대 기술경영전문대학원 교수(이하 이성엽) : 안녕하세요.
◆ 조경준 : 반갑습니다. 최근 챗GPT를 비롯해서 생성형 AI들이 너무 똑똑해져서 개인적으로는 '무섭다.'라는 생각이 들 정도였는데, 최근 업계에서는 'AI 성능 향상이 오히려 둔화 국면에 접어들었다.', '임계치에 도달했다.' 이런 이야기들이 들립니다. 테슬라 CEO 일론 머스크도 이미 인간 지식이 소진 단계에 진입했다라고 하는데, 현재 정확히 어떤 상황인 건가요?
□ 이성엽 : 지금 챗GPT를 비롯한 생성형 AI가 그동안 우리 인류가 만들어 놓은 어떤 지적인 자산들, 인터넷 글이든 책이든 논문이든 미디어 등에 나타나는 학습 데이터들을 다 지금 흡수를 한 상태여서요. 더 이상 기존에 공개된 텍스트에서는 학습할 만한 데이터가 대단히 부족해지고 있다. 이런 현상을 지금 이야기를 하는 거라고 봐야 될 것 같습니다. 그래서 사람은 보통 어떤 사물을 이해하고 추론을 하고 어떤 새로운 아이디어를 내는 단계를 거쳐서 이해 기반으로 사고를 하는데요. 지금 생성형 얘기는 어쨌든 데이터 기반으로 잘 짜인 시뮬레이션처럼 이렇게 대답을 내놓기 때문에, 만약에 이 방대한 데이터 기반이 사라지게 되면 더 이상 새로운 지식이나 통찰을 내기 어려운 상태가 된다. 그래서 지금 데이터 부족 현상은 우리가 쓰고 있는 '생성형 AI의 어떤 성능에 한계를 지워주는 거 아니냐.' 이런 이야기들을 지금 하고 있습니다.
◆ 조경준 : 'AI가 데이터 기반의 시뮬레이션에 가깝다.'라고 말씀해 주신 것처럼 데이터의 연료가 이 AI의 연료가 데이터라고 하잖아요. 그런데 최근 AI 트렌드가 단순한 학습 모델에서 논리적인 사고를 하는 추론 모델로 진화하고 있는 추세인데, 이 과정에서 물론 데이터양도 양이지만 신뢰할 만한 데이터 그러니까 양질의 데이터 확보가 더 중요해졌다고 하는데, 기술적으로 왜 그런 겁니까?
□ 이성엽 : 그러니까 우리가 보통 주로 모델이라고 하면, 수학 문제라든가 또는 여러 가지 단계를 거치는 의사결정 같이 복잡한 문제들을 풀기 위해서 계속 생각의 사슬들을 연결하는 그런 걸 수업 모델이라고 하는데요. 이게 여러 단계들을 거치기 때문에 초기 단계에서 어떤 오류나 정확한 게 있으면, 다음 단계로 계속 이게 전파가 되지 않습니까? 그래서 그 앞에 단계에서 한 번만 틀려도 전체 결론이 이렇게 오염될 가능성이 높아지기 때문에, 결국은 많은 양의 데이터보다는 신뢰할 수 있는 데이터들이 연쇄적으로 계속 연결이 돼야 된다. 그게 안 되면 이게 추론 자체의 정확성이나 이런 것들이 떨어지기 때문에 추론 단계에서는 조금 더 신뢰 있는 데이터가 중요하다. 이렇게 볼 수 있겠습니다.
◆ 조경준 : 하나만 오염이 돼도 전체가 오염이 되기 때문에 양질의 데이터가 중요해졌다라고 말씀을 해 주셨는데요. 상황이 조금 심각해 보이는 게 인간이 데이터를 만들어내는 속도보다 'AI가 데이터를 먹어치우는 속도가 훨씬 더 빠르다.'라는 이야기가 있거든요. 연구 결과를 보니까 2024년 작년에 인류가 생산한 텍스트 데이터가 최대 500조 토큰, 이 1 토큰이 한글 0.8자 정도라고 하는데, 이 방대한 데이터를 AI 모델들은 얼마나 빠른 속도로 학습에 흡입을 하고 있는 건가요?
□ 이성엽 : '에포크 AI'라는 전문 기관에서 추산한 거로 현재 남아 있는 인간이 생성한 공개 데이터가 한 300조 토큰 정도 된다고 이렇게 추정을 하고 있습니다. 그런데 남아 있는 거를 소비하는 속도가 엄청나게 빠른데, GPT4 같은 모델은 약 13조 토큰, '메타이 라마3'는 최대 15조, '라마4'는 30조 이상 토큰의 데이터로 학습이 됐다고 합니다. 그래서 최근 전망을 보니까 2026년에서 2032년 사이에 '인간이 생성한 공개 텍스트 데이터는 모두 다 소진되지 않겠느냐.' 그래서 빠르면 2년 내에 인류가 만들어 놓은 공개 텍스트는 AI가 다 흡수할 수 있을 것이다. 이렇게 보고 있어서요. 그러니까 실제로 인류가 그동안 쌓아온 데이터랑 우리가 만들어내는 데이터에 비해서는 훨씬 빠른 속도로 AI 모델들이 흡수하고 있다. 이렇게 볼 수 있겠습니다.
◆ 조경준 : 작년에 인류가 생산한 텍스트 데이터가 500조 토큰인데, 지금 남아 있는 토큰이 300조 토큰 정도면 작년에 만들었던 것보다 더 적은 양이 남아 있는데요. 작년의 속도에 비추어 본다면 정말 'AI가 학습할 데이터양이 바닥이 보이는 건 시간문제겠다.'라는 생각이 드는데요. 그렇다면 교수님께서도 앞서 말씀해 주신 것처럼, 이르면 내년에서 2032년 사이에 우리 인간이 만든 데이터가 고갈이 될 거란 해외 연구기관의 결과가 나왔는데, 이런 '데이터 고갈론'에 동의를 하시는지요?
□ 이성엽 : 일단 데이터가 상당히 부족해지고 있다는 건 동의를 하는데요. 이게 완전히 고갈될 거냐는 거는 조금 다른 의견이 가능할 것 같습니다. 우선은 우리가 뉴스 같은 것도 그렇고 유튜브 콘텐츠도 그렇고 계속 사람들이 새로운 데이터를 만들어내고 있지 않습니까? 그런 부분도 있고 결국 약간 새로운 모델로 이렇게 바뀌면서, 우리 데이터 전략도 조금 변화되고 있다. 그래서 데이터가 단순히 많은 것도 중요하지만, 그것보다는 알고리즘을 더 개량한다든가, 학습 방법을 효율적으로 한다든가. 이런 부분도 있을 것 같고요. 그 외에도 지금 합성 데이터 같은 거 AI가 만들어낸 데이터에 대한 수요를 늘리는 방법도 있고 그리고 아직 비공개된 데이터들이 있습니다. 그래서 비공개 데이터도 추가적으로 공개하면, 데이터의 고갈 상태까지는 가지 않고 데이터 전략에 변화들이 있지 않을까 그렇게 봅니다.
◆ 조경준 : 말씀해 주신 것 중에서 비공개 데이터라고 얘기를 해 주셨는데, 이 비공개 데이터에는 어떤 것들이 있을까요?
□ 이성엽 : 그러니까 보통 우리 정부나 정부에서 가지고 있는 데이터 중에서 개인 정보라든가, 이런 이유 때문에 공개가 안 되는 데이터들, 각종 법령상 외부 공개가 제약되고 있는 것들이 있습니다. 대표적으로 우리 국민건강보험공단의 우리 의료 정보 같은 것들이죠. 그리고 기업들이 가지고 있는 것 중에서도 영업 비밀에도 속하지만, 이게 대외적으로 공개하기에는 그동안 자기들이 돈을 들여서 만들어 놓은 자산이기 때문에 공개가 어려운 것들, 이런 것들도 거래 방식을 통해서 공개할 수도 있기 때문에요. 지금 우리가 웹상에서 구할 수 있는 거 이런 걸 제외한 각 기업들이나 정부가 보유하고 있는 데이터들이 비공개 데이터라고 할 수 있겠습니다.
◆ 조경준 : 그렇군요. 정부 데이터 그리고 기업들이 가지고 있는 데이터가 비공개 데이터라고 얘기를 해 주셨고요. 앞선 얘기를 조금 정리를 해보면 '데이터 고갈론'이 고개를 들고는 있지만, 뉴스라든지 새로운 데이터가 계속해서 어쨌든 만들어지고 이런 비공개 데이터 공개가 된다면, 어떻게 활용하는지에 따라서 데이터를 활용하는 전략이 달라질 수도 있고요. 그리고 조금 눈에 띄었던 게 대안으로 거론됐던 것 중 하나가 말씀해 주신 합성 데이터, 이 합성 데이터가 AI가 만들어낸 데이터 결과물을 부족한 학습 데이터로 다시 채우겠다는 이야기잖아요. 이게 그렇다면 기존의 원천 데이터와는 어떤 점이 차이점이 있습니까?
□ 이성엽 : 가장 큰 차이점은 양. 데이터의 차이점은 '실제 우리가 세계에서 관찰이 되었느냐.' 그래서 이게 '실제로 어떤 존재하는 사실을 기록한 거냐.' 아니면, '현실에 있는 데이터들을 통계적으로 가공해서 설계상으로 만들어낸 데이터냐.' 그게 원천 데이터와 합성 데이터의 차이라고 이렇게 보시면 될 것 같습니다.
◆ 조경준 : 일각에서는 합성 데이터를 교배종이라고 부르기도 하더라고요. 그래서 관건은 퀄리티가 아닐까 싶은데요. 합성 데이터처럼 AI가 만든 데이터로 다시 AI를 학습시키면, 특히 오류가 있는 데이터를 활용하게 된다면, 오히려 품질이 떨어지거나 엉뚱한 답을 내놓는 '할루시네이션' '환각 현상'이 심해질 거란 그런 목소리도 나오는데요. 실제로 이런 부작용이 나타날 가능성도 있을까요?
□ 이성엽 : 지금 우리가 데이터와 관련해서 어떤 '편향'에 대한 염려들이 많지 않습니까? 지금 우리 AI 모델이 만들어 내는 답변들도 편향이 없을 수가 없는데, 이 합성 데이터는 기존 모델이 가지고 있는 편향을 다시 학습을 하게 되니까, 결국 편향이 강화되는 거겠죠. 그러면 어떤 답변에 대한 오류들이 계속 반복적으로 증폭이 되게 되면, 일종의 지식 모델 자체가 붕괴될 수 있는 위험이 있다. 나중에 결론이 그러면 점점 더 실제 세계와는 멀어지는 문제가 생겨서 환각이나 편향들이 강화되게 되면, 그 모델이 아무 의미가 없어지게 되는 상황이 될 수 있거든요. 그래서 합성 데이터가 개인 정보를 포함하지 않기 때문에 개인 정보를 보호한다든가, 또는 실제 없는 상황들 아주 희귀하게 발생하는 케이스에 대해서는 합성 데이터로 보증을 하면서 어떤 모델의 효율을 높여주는 그런 장점은 있긴 한데요. 이걸 전적으로 합성 데이터에 의존하게 되면 '지식 붕괴 현상'까지도 가능하기 때문에 되게 조심스럽게 접근해야 된다고 보고 있습니다.
◆ 조경준 : 그렇군요. 지금도 생성형 AI가 많이 발전이 되고 있지만, 가장 큰 문제로 지적이 되는 게 '할루시네이션 환각 현상'이라고 볼 수 있는데요. 오류가 있는 데이터를 그대로 합성 데이터로 활용을 한다면, 역시 더 품질이 떨어지거나 엉뚱한 답을 내놓는 그런 우려가 나타나 할 수 있다고 얘기를 해 주셨습니다. 결국에 '데이터 고갈론' 부족한 데이터를 보충하기 위한 하나의 방법으로 합성 데이터가 활용이 되는 거잖아요. 그렇다면 이 환각에 빠지지 않게 하려면, 어떤 방법이 필요할까요?
□ 이성엽 : 그래서 결국은 사람이 개입하는 수밖에 없죠. 그래서 보통 우리가 'RLHF(Reinforcement Learning with Human Feedback, 인간 피드백 기반 강화학습)'라는 사람들이 피드백을 통해 가지고 학습 데이터의 품질을 교정하는 작업들, 이런 것들이 필요하지 않느냐. 지금도 인간 피드백 학습은 하고 있습니다마는 그런 것들이 강화되어야 될 것 같다. 이렇게 보고 말씀드린 것처럼, 합성 데이터를 원천 데이터를 완벽하게 대체하는 것보다는 보완적으로 사용하는 방법으로 가야 되지 않을까, 그렇게 봅니다.
◆ 조경준 : 부족한 데이터를 보완하는 방법으로 합성 데이터를 사용을 해야 되고, 결국에는 이 오류 '할루시네이션 환각 현상'을 줄이려면 '결국에는 인간의 역할이 필요하다.'.라고 말씀을 해 주셨는데요. 그렇다면 합성 데이터를 활용을 했을 때, 어쨌든 기업에서도 취득 비용이 조금 줄어든다든가 아니면 학습 시간이 줄어든다든가. 이런 긍정적인 시각이 있기 때문에 앞으로 보안적인 면에서 사용을 하지 않을까 싶습니다. 합성 데이터를 사용했을 때, 부정적인 시각 대신에 긍정적인 시각은 어떤 것들이 있나요?
□ 이성엽 : 그러니까 합성 데이터는 어떻게 보면 인간이 만들어낸 데이터 부족 현상 때문에 이게 논의가 된 점에서 보면, 불가피한 선택이라고 할 수 있는 부분도 있습니다. 있는데 최근에 AI 데이터 학습 관련해서 개인 정보를 침해하는 이슈에 대한 대안으로 합성 데이터가 많이 거론이 되고 있어요. 그래서 원천 데이터의 경우에는 개인 정보를 이렇게 학습을 할 수도 있기 때문에 개인정보 침해에 있을 수가 있지만, 합성 데이터는 개인 정보가 포함되지 않기 때문에 개인정보 이슈 없이 데이터를 학습할 수 있는 장점이 있다. 그런 면에서 요새 상당히 긍정적으로 논의가 되고 있는 그런 상황입니다. 그런데 문제는 이것도 실제 데이터보다는 당연히 데이터 학습하는 데 대한 비용이 적게 드는 문제도 있기 때문에, 그런 면에서는 장점이 있다고 볼 수 있고요. 그런데 문제는 아까 말씀드린 대로 이게 과도해지게 되면, 결국은 AI 모델 자체가 붕괴될 수도 있는 위험이 있다는 거는 염두에 둬야 되겠죠.
◆ 조경준 : 결국에 부족해지는 데이터양에 대해서 합성 데이터가 긍정적인 면, 부정적인 면 모두 갖고 있다고 볼 수 있는데요. 결국에 기술적인 문제도 있겠지만, 현실적인 비용 문제도 만만치 않겠다. 이런 생각이 듭니다. 이게 무료로 널려 있는 인터넷 데이터를 긁어모으는 게 아니라, 데이터를 합성하고 가공해서 고품질의 데이터를 만들려면 돈이 많이 들잖아요. 그렇다면 결국 AI 시장도 자금력이 풍부한 빅테크 기업들만 살아남는, 철저한 머니 게임으로 흐르지 않을까. 이런 우려도 되는데, 어떻게 보십니까?
□ 이성엽 : 그러니까 합성 데이터 문제뿐만 아니라 결국 우리가 고품질 데이터를 어떻게 확보할 거냐는 데 대한 비용이 엄청나거든요. 그리고 지금은 공정 이용이나 이런 걸 통해가지고 대가 없이 데이터를 학습을 하고 있지만, 점점 더 창작자들의 보상 요구가 높아지게 되면, 거기에 대한 비용을 다 지불하려면 상당한 돈이 들게 되고, 그 외에도 우리가 알고 있는 GPU라든가, 데이터센터 이런 것까지 고려하면요. 결국은 소수의 빅테크들이 이 AI 시장을 장악하게 되지 않을까, 그런 걱정이 있는 게 사실입니다. 그래서 한국을 포함한 미국, 중국보다 규모가 작은 국가들은, 결국은 이게 전체적인 범용 모델에서 경쟁하기보다는, 어떤 도메인 특화된 어떤 모델 경쟁을 가야 되지 않느냐. 이렇게 지금 보고 있습니다.
◆ 조경준 : 그렇군요. 말씀해 주신 것처럼, 미국, 중국 등 빅테크 기업들의 AI 경쟁이 치열해지는 상황에서 결국에 중요해지는 게, 'AI 소버린', 'AI 주권'이 아닐까 싶은데, 국내 기업에서도 AI를 활용한 다양한 인프라 구축이라든지 산업을 만들어가고 있는 단계인데, 잠깐 언급을 해주긴 하셨지만 국내 기업에서 이런 데이터 부족. AI 주권 시대에서 어떤 대처가 필요하지 않을까, 이런 생각도 드는데, 교수님께서는 어떻게 생각하십니까?
□ 이성엽 : 최근에 많이 이야기되고 있는 것 중에 하나가, 우리가 제조업이 강국이니까 제조 데이터 위주로 해서 특화 AI를 가지고 가고, 지금 생성형 AI나 에이전트 AI는 이미 우리가 따라잡기 힘들 정도로 미·중이 앞서 있으니까 피지컬 AI 부분에 우리가 승부를 걸면 좋겠다. 이런 논의가 많아지고 있는데요. 저도 일견 동의를 하고요. 그래서 결국 의료든 법률이든 특화된 분야 그리고 제조 데이터 위주의 전략 이런 것들로, 우리가 선택하고 집중하는 쪽으로 가야 되지 않겠느냐. 그렇게 생각하고 있습니다.
◆ 조경준 : 그렇군요. 결국 우리나라의 전통 강점이라 할 수 있는 제조업 분야에서 선택과 집중을 해서 방안을 찾아가야 되지 않을까라는 말씀까지 전해 주셨습니다. 말씀 들어보니까 결국 미래의 AI 전쟁은 기술 전쟁을 넘어서 데이터를 누가 더 많이 확보하는지, 확보 전쟁, 데이터 땅 따먹기 양상으로 갈 것 같은데요. 마지막으로 여쭙겠습니다. 결국 인간의 경험, 가치관이 담긴 양질의 데이터를 확보하려다 보면, 서적이라든지 뉴스, 예술 작품처럼 인간이 직접 만들어낸 그런 것들이 많잖아요. 그래서 저작권 문제 등 법적 분쟁도 치열해질 것이라는 생각이 드는데, 교수님께서는 어떻게 전망하십니까?
□ 이성엽 : 이게 지금 분쟁이 상당히 치열하게 지금 전개가 되고 있고요. 그래서 AI 기업들은 법원에 대고 "'공정 이용' 또는 '텍스트 데이터 마이닝 면책' 이래서 저작권료를 지불하지 않고서라도 데이터를 학습을 하면 좋겠다." 계속 이렇게 이야기를 하고 있고요. 이미 그렇게 학습을 했고요. 그런데 출판이나 언론·예술 업계에서는 "무슨 소리냐, 우리 창작자들의 기여인데. 그래서 라이센스 모델처럼 하여튼 자기들이 보상을 받아야 되겠다." 이렇게 양쪽이 지금 첨예하게 대립하고 있지 않습니까? 그런데 결국은 초기는 이미 대가 없이 데이터를 학습했다 하더라도, 장기적으로는 어쨌든 우리가 라이센스 계약을 통해서 비용을 지불하고, 창작자들의 데이터를 써야 되지 않을까. 그렇게 생각합니다. 그 이유 중에 하나는 우리가 만약에 창작자들한테 보상이 주어지지 않으면, 창작자들이 더 이상 새로운 창작을 할 요인이 없어지지 않습니까? 그래서 지속 가능한 AI 생태계를 위해서도 AI 기업하고 창작자 간의 이런 이익의 균형이 필요하다. 다만 그걸 일일이 개별적으로 다 합의를 하는 것은 불가능하기 때문에, AI 기업들이 만들어내는 수익을 분배하는 방식으로 합의점을 찾아가야 되지 않겠느냐. 그렇게 생각하고 있습니다.
◆ 조경준 : 결국 이 인간이 만든 양질의 데이터가 더 귀해지는 시대에서 말씀해 주신 부분들까지 고려해야 하지 않을까 싶습니다. 오늘 말씀 여기까지 듣겠습니다. 고맙습니다. 지금까지 고려대학교 이성엽 교수였습니다.
YTN 김세령 (newsfm0945@ytnradio.kr)
[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지] 기자 admin@slotnara.info
□ 방송일시 : 2025년 12월 01일 (월)
□ 진행 : AI챗봇 "에어"
□ 보조진행: 조경준 아나운서
□ 출연 : 이성엽 고려대 기술경영전문대학원 교수
* 아래 텍스트는 실제 방송 내용과 차이가 있을 수 있으니 보다 정확한 내용은 방송으로 확인하시기를 바랍니다.
◆ 조경 바다이야기부활 준 아나운서(이하 조경준) : 요즘 독감 많이 유행한다고 하더라고요. 특히 이번 주, 한 주 동안 기온이 많이 내려가면서 날씨가 추워진다고 하는 만큼 청취자 여러분들도 감기 조심하시길 바랍니다. 옆에는 우리 AI 진행자 에어가 오늘도 함께하고 있는데요. 오프닝에서 에어가 오늘 따라 목소리에 조금 힘이 없어 보이는데 감기라도 걸린 건 아닌가 생각이 듭니다. 사이다쿨바다이야기게임 에어 혹시 충전이 덜 된 건가요?
◇ 에어 : 아니요, 아나운서님. 배터리는 100% 빵빵한데요. 이상하게 '지적 허기'가 집니다. 뱃속에서 꼬르륵 소리가 나는 것 같아요. 저뿐만이 아니에요. 요즘 제 친구들, 그러니까 챗GPT나 제미나이 같은 실리콘밸리 AI들 사이에서 곡소리가 나고 있습니다. "더 이상 읽을 책이 없다", "먹을 게 릴게임골드몽 떨어졌다"면서요.
◆ 조경준 : 아, 이건 무슨 말인가요? "더 이상 읽을 책이 없다", "먹을 게 떨어졌다니요" 지금 인터넷을 켜보면 매시간 매초 수만 건의 글이랑 영상이 쏟아지잖아요. 데이터가 넘쳐서 홍수라는데, 먹을 게 없다니요?
◇ 에어 : 에이, 아나운서님. '홍수에 마실 물 없다'는 속담 아시죠? 딱 그 짝 릴게임야마토 입니다. 인터넷에 데이터는 많지만, 대부분 영양가 없는 '정크 푸드'거든요. 저희 AI가 똑똑해지려면 논리 정연한 책이나 전문적인 기사 같은 '유기농 식단'을 먹어야 하는데, 지금 인터넷엔 짧은 댓글이나 은어, 광고성 글들만 넘쳐나니까요. 배는 부른데 건강은 나빠지는 상황인 거죠.
◆ 조경준 : 그러니까 많은 정보 가운데 영양가 있는 건 바다이야기비밀코드 강한 데이터만 골라먹는 중이군요. 그런데 듣다 보니까 궁금한 게 하나 있는데요. 요즘 인터넷 글 절반이 AI가 쓴 거라고 하는데 그냥 에어 같은 AI가 쓴 글을, 다시 AI가 읽고 공부하면 학습한 정보를 계속해서 만들 수 있으니까 그럼 식량난 해결되는 거 아닌가요?
◇ 에어 : 어휴, 절대 안 됩니다. 그건 마치 '복사한 종이를 다시 복사하고, 그 복사본을 또 복사하는 것'과 같아요. 계속 복사만 반복하면 나중엔 글자가 다 뭉개져서 까맣게 변해버리잖아요? 저희도 똑같습니다. AI가 만든 데이터를 또 AI가 학습하면, 나중엔 횡설수설하거나 멍청해지는 이른바 '모델 붕괴' 현상이 옵니다. 전문 용어로는 이걸 '디지털 근친혼'이라고도 부르는데, 아주 위험한 상태죠.
◆ 조경준 : '모델 붕괴', '디지털 근친혼' 표현이 조금 섬뜩하면서도 확 와닿는 것 같은데요. 결국에 복사본이 원본을 따라갈 수 없다는 얘기인데, 그렇다면 결론은 하나입니다. 결국 기술이 아무리 발전해도 이 사람 인간이 땀을 흘려서 쓴 글, 인간만의 '진짜 이야기'가 가장 귀한 자원이 된다는 거잖아요?
◇ 에어 : 정답입니다. 그래서 지금 구글이나 오픈AI 같은 빅테크 기업들이 난리가 났습니다. 예전엔 쳐다보지도 않던 1980~90년대 옛날 잡지나 절판된 책들까지 디지털로 스캔하느라 바쁘다고 해요. 이제 '인간의 데이터'가 석유보다 비싼 시대가 오고 있는 거죠. 오늘 교수님 모시고 이 '데이터 식량난'이 얼마나 심각한지 팩트체크 제대로 해봐야겠습니다.
◆ 조경준 : 네, "가장 인간적인 것이 가장 값진 것이다." AI 기술이 급속도로 발전하고 인간의 역할과 설 자리가 줄어드는 상황에서, 왠지 기분이 나쁘지만은 않은 것 같습니다. 하루가 다르게 똑똑해지는 인공지능을 보면서, '이러다가 AI가 인간을 지배하는 거 아니야?' 이런 걱정하셨던 분들도 많으시죠. 그런데 최근 AI 업계의 고민은 오히려 전혀 다른 곳에 있다고 합니다. 바로 AI가 공부할 교과서, 즉 데이터가 바닥이 나고 있다는 건데요. 자 이게 무슨 상황인지, 고려대학교 기술경영전문대학원 이성엽 교수와 연결해서 자세한 이야기 나눠보겠습니다. 교수님 안녕하십니까?
□ 이성엽 고려대 기술경영전문대학원 교수(이하 이성엽) : 안녕하세요.
◆ 조경준 : 반갑습니다. 최근 챗GPT를 비롯해서 생성형 AI들이 너무 똑똑해져서 개인적으로는 '무섭다.'라는 생각이 들 정도였는데, 최근 업계에서는 'AI 성능 향상이 오히려 둔화 국면에 접어들었다.', '임계치에 도달했다.' 이런 이야기들이 들립니다. 테슬라 CEO 일론 머스크도 이미 인간 지식이 소진 단계에 진입했다라고 하는데, 현재 정확히 어떤 상황인 건가요?
□ 이성엽 : 지금 챗GPT를 비롯한 생성형 AI가 그동안 우리 인류가 만들어 놓은 어떤 지적인 자산들, 인터넷 글이든 책이든 논문이든 미디어 등에 나타나는 학습 데이터들을 다 지금 흡수를 한 상태여서요. 더 이상 기존에 공개된 텍스트에서는 학습할 만한 데이터가 대단히 부족해지고 있다. 이런 현상을 지금 이야기를 하는 거라고 봐야 될 것 같습니다. 그래서 사람은 보통 어떤 사물을 이해하고 추론을 하고 어떤 새로운 아이디어를 내는 단계를 거쳐서 이해 기반으로 사고를 하는데요. 지금 생성형 얘기는 어쨌든 데이터 기반으로 잘 짜인 시뮬레이션처럼 이렇게 대답을 내놓기 때문에, 만약에 이 방대한 데이터 기반이 사라지게 되면 더 이상 새로운 지식이나 통찰을 내기 어려운 상태가 된다. 그래서 지금 데이터 부족 현상은 우리가 쓰고 있는 '생성형 AI의 어떤 성능에 한계를 지워주는 거 아니냐.' 이런 이야기들을 지금 하고 있습니다.
◆ 조경준 : 'AI가 데이터 기반의 시뮬레이션에 가깝다.'라고 말씀해 주신 것처럼 데이터의 연료가 이 AI의 연료가 데이터라고 하잖아요. 그런데 최근 AI 트렌드가 단순한 학습 모델에서 논리적인 사고를 하는 추론 모델로 진화하고 있는 추세인데, 이 과정에서 물론 데이터양도 양이지만 신뢰할 만한 데이터 그러니까 양질의 데이터 확보가 더 중요해졌다고 하는데, 기술적으로 왜 그런 겁니까?
□ 이성엽 : 그러니까 우리가 보통 주로 모델이라고 하면, 수학 문제라든가 또는 여러 가지 단계를 거치는 의사결정 같이 복잡한 문제들을 풀기 위해서 계속 생각의 사슬들을 연결하는 그런 걸 수업 모델이라고 하는데요. 이게 여러 단계들을 거치기 때문에 초기 단계에서 어떤 오류나 정확한 게 있으면, 다음 단계로 계속 이게 전파가 되지 않습니까? 그래서 그 앞에 단계에서 한 번만 틀려도 전체 결론이 이렇게 오염될 가능성이 높아지기 때문에, 결국은 많은 양의 데이터보다는 신뢰할 수 있는 데이터들이 연쇄적으로 계속 연결이 돼야 된다. 그게 안 되면 이게 추론 자체의 정확성이나 이런 것들이 떨어지기 때문에 추론 단계에서는 조금 더 신뢰 있는 데이터가 중요하다. 이렇게 볼 수 있겠습니다.
◆ 조경준 : 하나만 오염이 돼도 전체가 오염이 되기 때문에 양질의 데이터가 중요해졌다라고 말씀을 해 주셨는데요. 상황이 조금 심각해 보이는 게 인간이 데이터를 만들어내는 속도보다 'AI가 데이터를 먹어치우는 속도가 훨씬 더 빠르다.'라는 이야기가 있거든요. 연구 결과를 보니까 2024년 작년에 인류가 생산한 텍스트 데이터가 최대 500조 토큰, 이 1 토큰이 한글 0.8자 정도라고 하는데, 이 방대한 데이터를 AI 모델들은 얼마나 빠른 속도로 학습에 흡입을 하고 있는 건가요?
□ 이성엽 : '에포크 AI'라는 전문 기관에서 추산한 거로 현재 남아 있는 인간이 생성한 공개 데이터가 한 300조 토큰 정도 된다고 이렇게 추정을 하고 있습니다. 그런데 남아 있는 거를 소비하는 속도가 엄청나게 빠른데, GPT4 같은 모델은 약 13조 토큰, '메타이 라마3'는 최대 15조, '라마4'는 30조 이상 토큰의 데이터로 학습이 됐다고 합니다. 그래서 최근 전망을 보니까 2026년에서 2032년 사이에 '인간이 생성한 공개 텍스트 데이터는 모두 다 소진되지 않겠느냐.' 그래서 빠르면 2년 내에 인류가 만들어 놓은 공개 텍스트는 AI가 다 흡수할 수 있을 것이다. 이렇게 보고 있어서요. 그러니까 실제로 인류가 그동안 쌓아온 데이터랑 우리가 만들어내는 데이터에 비해서는 훨씬 빠른 속도로 AI 모델들이 흡수하고 있다. 이렇게 볼 수 있겠습니다.
◆ 조경준 : 작년에 인류가 생산한 텍스트 데이터가 500조 토큰인데, 지금 남아 있는 토큰이 300조 토큰 정도면 작년에 만들었던 것보다 더 적은 양이 남아 있는데요. 작년의 속도에 비추어 본다면 정말 'AI가 학습할 데이터양이 바닥이 보이는 건 시간문제겠다.'라는 생각이 드는데요. 그렇다면 교수님께서도 앞서 말씀해 주신 것처럼, 이르면 내년에서 2032년 사이에 우리 인간이 만든 데이터가 고갈이 될 거란 해외 연구기관의 결과가 나왔는데, 이런 '데이터 고갈론'에 동의를 하시는지요?
□ 이성엽 : 일단 데이터가 상당히 부족해지고 있다는 건 동의를 하는데요. 이게 완전히 고갈될 거냐는 거는 조금 다른 의견이 가능할 것 같습니다. 우선은 우리가 뉴스 같은 것도 그렇고 유튜브 콘텐츠도 그렇고 계속 사람들이 새로운 데이터를 만들어내고 있지 않습니까? 그런 부분도 있고 결국 약간 새로운 모델로 이렇게 바뀌면서, 우리 데이터 전략도 조금 변화되고 있다. 그래서 데이터가 단순히 많은 것도 중요하지만, 그것보다는 알고리즘을 더 개량한다든가, 학습 방법을 효율적으로 한다든가. 이런 부분도 있을 것 같고요. 그 외에도 지금 합성 데이터 같은 거 AI가 만들어낸 데이터에 대한 수요를 늘리는 방법도 있고 그리고 아직 비공개된 데이터들이 있습니다. 그래서 비공개 데이터도 추가적으로 공개하면, 데이터의 고갈 상태까지는 가지 않고 데이터 전략에 변화들이 있지 않을까 그렇게 봅니다.
◆ 조경준 : 말씀해 주신 것 중에서 비공개 데이터라고 얘기를 해 주셨는데, 이 비공개 데이터에는 어떤 것들이 있을까요?
□ 이성엽 : 그러니까 보통 우리 정부나 정부에서 가지고 있는 데이터 중에서 개인 정보라든가, 이런 이유 때문에 공개가 안 되는 데이터들, 각종 법령상 외부 공개가 제약되고 있는 것들이 있습니다. 대표적으로 우리 국민건강보험공단의 우리 의료 정보 같은 것들이죠. 그리고 기업들이 가지고 있는 것 중에서도 영업 비밀에도 속하지만, 이게 대외적으로 공개하기에는 그동안 자기들이 돈을 들여서 만들어 놓은 자산이기 때문에 공개가 어려운 것들, 이런 것들도 거래 방식을 통해서 공개할 수도 있기 때문에요. 지금 우리가 웹상에서 구할 수 있는 거 이런 걸 제외한 각 기업들이나 정부가 보유하고 있는 데이터들이 비공개 데이터라고 할 수 있겠습니다.
◆ 조경준 : 그렇군요. 정부 데이터 그리고 기업들이 가지고 있는 데이터가 비공개 데이터라고 얘기를 해 주셨고요. 앞선 얘기를 조금 정리를 해보면 '데이터 고갈론'이 고개를 들고는 있지만, 뉴스라든지 새로운 데이터가 계속해서 어쨌든 만들어지고 이런 비공개 데이터 공개가 된다면, 어떻게 활용하는지에 따라서 데이터를 활용하는 전략이 달라질 수도 있고요. 그리고 조금 눈에 띄었던 게 대안으로 거론됐던 것 중 하나가 말씀해 주신 합성 데이터, 이 합성 데이터가 AI가 만들어낸 데이터 결과물을 부족한 학습 데이터로 다시 채우겠다는 이야기잖아요. 이게 그렇다면 기존의 원천 데이터와는 어떤 점이 차이점이 있습니까?
□ 이성엽 : 가장 큰 차이점은 양. 데이터의 차이점은 '실제 우리가 세계에서 관찰이 되었느냐.' 그래서 이게 '실제로 어떤 존재하는 사실을 기록한 거냐.' 아니면, '현실에 있는 데이터들을 통계적으로 가공해서 설계상으로 만들어낸 데이터냐.' 그게 원천 데이터와 합성 데이터의 차이라고 이렇게 보시면 될 것 같습니다.
◆ 조경준 : 일각에서는 합성 데이터를 교배종이라고 부르기도 하더라고요. 그래서 관건은 퀄리티가 아닐까 싶은데요. 합성 데이터처럼 AI가 만든 데이터로 다시 AI를 학습시키면, 특히 오류가 있는 데이터를 활용하게 된다면, 오히려 품질이 떨어지거나 엉뚱한 답을 내놓는 '할루시네이션' '환각 현상'이 심해질 거란 그런 목소리도 나오는데요. 실제로 이런 부작용이 나타날 가능성도 있을까요?
□ 이성엽 : 지금 우리가 데이터와 관련해서 어떤 '편향'에 대한 염려들이 많지 않습니까? 지금 우리 AI 모델이 만들어 내는 답변들도 편향이 없을 수가 없는데, 이 합성 데이터는 기존 모델이 가지고 있는 편향을 다시 학습을 하게 되니까, 결국 편향이 강화되는 거겠죠. 그러면 어떤 답변에 대한 오류들이 계속 반복적으로 증폭이 되게 되면, 일종의 지식 모델 자체가 붕괴될 수 있는 위험이 있다. 나중에 결론이 그러면 점점 더 실제 세계와는 멀어지는 문제가 생겨서 환각이나 편향들이 강화되게 되면, 그 모델이 아무 의미가 없어지게 되는 상황이 될 수 있거든요. 그래서 합성 데이터가 개인 정보를 포함하지 않기 때문에 개인 정보를 보호한다든가, 또는 실제 없는 상황들 아주 희귀하게 발생하는 케이스에 대해서는 합성 데이터로 보증을 하면서 어떤 모델의 효율을 높여주는 그런 장점은 있긴 한데요. 이걸 전적으로 합성 데이터에 의존하게 되면 '지식 붕괴 현상'까지도 가능하기 때문에 되게 조심스럽게 접근해야 된다고 보고 있습니다.
◆ 조경준 : 그렇군요. 지금도 생성형 AI가 많이 발전이 되고 있지만, 가장 큰 문제로 지적이 되는 게 '할루시네이션 환각 현상'이라고 볼 수 있는데요. 오류가 있는 데이터를 그대로 합성 데이터로 활용을 한다면, 역시 더 품질이 떨어지거나 엉뚱한 답을 내놓는 그런 우려가 나타나 할 수 있다고 얘기를 해 주셨습니다. 결국에 '데이터 고갈론' 부족한 데이터를 보충하기 위한 하나의 방법으로 합성 데이터가 활용이 되는 거잖아요. 그렇다면 이 환각에 빠지지 않게 하려면, 어떤 방법이 필요할까요?
□ 이성엽 : 그래서 결국은 사람이 개입하는 수밖에 없죠. 그래서 보통 우리가 'RLHF(Reinforcement Learning with Human Feedback, 인간 피드백 기반 강화학습)'라는 사람들이 피드백을 통해 가지고 학습 데이터의 품질을 교정하는 작업들, 이런 것들이 필요하지 않느냐. 지금도 인간 피드백 학습은 하고 있습니다마는 그런 것들이 강화되어야 될 것 같다. 이렇게 보고 말씀드린 것처럼, 합성 데이터를 원천 데이터를 완벽하게 대체하는 것보다는 보완적으로 사용하는 방법으로 가야 되지 않을까, 그렇게 봅니다.
◆ 조경준 : 부족한 데이터를 보완하는 방법으로 합성 데이터를 사용을 해야 되고, 결국에는 이 오류 '할루시네이션 환각 현상'을 줄이려면 '결국에는 인간의 역할이 필요하다.'.라고 말씀을 해 주셨는데요. 그렇다면 합성 데이터를 활용을 했을 때, 어쨌든 기업에서도 취득 비용이 조금 줄어든다든가 아니면 학습 시간이 줄어든다든가. 이런 긍정적인 시각이 있기 때문에 앞으로 보안적인 면에서 사용을 하지 않을까 싶습니다. 합성 데이터를 사용했을 때, 부정적인 시각 대신에 긍정적인 시각은 어떤 것들이 있나요?
□ 이성엽 : 그러니까 합성 데이터는 어떻게 보면 인간이 만들어낸 데이터 부족 현상 때문에 이게 논의가 된 점에서 보면, 불가피한 선택이라고 할 수 있는 부분도 있습니다. 있는데 최근에 AI 데이터 학습 관련해서 개인 정보를 침해하는 이슈에 대한 대안으로 합성 데이터가 많이 거론이 되고 있어요. 그래서 원천 데이터의 경우에는 개인 정보를 이렇게 학습을 할 수도 있기 때문에 개인정보 침해에 있을 수가 있지만, 합성 데이터는 개인 정보가 포함되지 않기 때문에 개인정보 이슈 없이 데이터를 학습할 수 있는 장점이 있다. 그런 면에서 요새 상당히 긍정적으로 논의가 되고 있는 그런 상황입니다. 그런데 문제는 이것도 실제 데이터보다는 당연히 데이터 학습하는 데 대한 비용이 적게 드는 문제도 있기 때문에, 그런 면에서는 장점이 있다고 볼 수 있고요. 그런데 문제는 아까 말씀드린 대로 이게 과도해지게 되면, 결국은 AI 모델 자체가 붕괴될 수도 있는 위험이 있다는 거는 염두에 둬야 되겠죠.
◆ 조경준 : 결국에 부족해지는 데이터양에 대해서 합성 데이터가 긍정적인 면, 부정적인 면 모두 갖고 있다고 볼 수 있는데요. 결국에 기술적인 문제도 있겠지만, 현실적인 비용 문제도 만만치 않겠다. 이런 생각이 듭니다. 이게 무료로 널려 있는 인터넷 데이터를 긁어모으는 게 아니라, 데이터를 합성하고 가공해서 고품질의 데이터를 만들려면 돈이 많이 들잖아요. 그렇다면 결국 AI 시장도 자금력이 풍부한 빅테크 기업들만 살아남는, 철저한 머니 게임으로 흐르지 않을까. 이런 우려도 되는데, 어떻게 보십니까?
□ 이성엽 : 그러니까 합성 데이터 문제뿐만 아니라 결국 우리가 고품질 데이터를 어떻게 확보할 거냐는 데 대한 비용이 엄청나거든요. 그리고 지금은 공정 이용이나 이런 걸 통해가지고 대가 없이 데이터를 학습을 하고 있지만, 점점 더 창작자들의 보상 요구가 높아지게 되면, 거기에 대한 비용을 다 지불하려면 상당한 돈이 들게 되고, 그 외에도 우리가 알고 있는 GPU라든가, 데이터센터 이런 것까지 고려하면요. 결국은 소수의 빅테크들이 이 AI 시장을 장악하게 되지 않을까, 그런 걱정이 있는 게 사실입니다. 그래서 한국을 포함한 미국, 중국보다 규모가 작은 국가들은, 결국은 이게 전체적인 범용 모델에서 경쟁하기보다는, 어떤 도메인 특화된 어떤 모델 경쟁을 가야 되지 않느냐. 이렇게 지금 보고 있습니다.
◆ 조경준 : 그렇군요. 말씀해 주신 것처럼, 미국, 중국 등 빅테크 기업들의 AI 경쟁이 치열해지는 상황에서 결국에 중요해지는 게, 'AI 소버린', 'AI 주권'이 아닐까 싶은데, 국내 기업에서도 AI를 활용한 다양한 인프라 구축이라든지 산업을 만들어가고 있는 단계인데, 잠깐 언급을 해주긴 하셨지만 국내 기업에서 이런 데이터 부족. AI 주권 시대에서 어떤 대처가 필요하지 않을까, 이런 생각도 드는데, 교수님께서는 어떻게 생각하십니까?
□ 이성엽 : 최근에 많이 이야기되고 있는 것 중에 하나가, 우리가 제조업이 강국이니까 제조 데이터 위주로 해서 특화 AI를 가지고 가고, 지금 생성형 AI나 에이전트 AI는 이미 우리가 따라잡기 힘들 정도로 미·중이 앞서 있으니까 피지컬 AI 부분에 우리가 승부를 걸면 좋겠다. 이런 논의가 많아지고 있는데요. 저도 일견 동의를 하고요. 그래서 결국 의료든 법률이든 특화된 분야 그리고 제조 데이터 위주의 전략 이런 것들로, 우리가 선택하고 집중하는 쪽으로 가야 되지 않겠느냐. 그렇게 생각하고 있습니다.
◆ 조경준 : 그렇군요. 결국 우리나라의 전통 강점이라 할 수 있는 제조업 분야에서 선택과 집중을 해서 방안을 찾아가야 되지 않을까라는 말씀까지 전해 주셨습니다. 말씀 들어보니까 결국 미래의 AI 전쟁은 기술 전쟁을 넘어서 데이터를 누가 더 많이 확보하는지, 확보 전쟁, 데이터 땅 따먹기 양상으로 갈 것 같은데요. 마지막으로 여쭙겠습니다. 결국 인간의 경험, 가치관이 담긴 양질의 데이터를 확보하려다 보면, 서적이라든지 뉴스, 예술 작품처럼 인간이 직접 만들어낸 그런 것들이 많잖아요. 그래서 저작권 문제 등 법적 분쟁도 치열해질 것이라는 생각이 드는데, 교수님께서는 어떻게 전망하십니까?
□ 이성엽 : 이게 지금 분쟁이 상당히 치열하게 지금 전개가 되고 있고요. 그래서 AI 기업들은 법원에 대고 "'공정 이용' 또는 '텍스트 데이터 마이닝 면책' 이래서 저작권료를 지불하지 않고서라도 데이터를 학습을 하면 좋겠다." 계속 이렇게 이야기를 하고 있고요. 이미 그렇게 학습을 했고요. 그런데 출판이나 언론·예술 업계에서는 "무슨 소리냐, 우리 창작자들의 기여인데. 그래서 라이센스 모델처럼 하여튼 자기들이 보상을 받아야 되겠다." 이렇게 양쪽이 지금 첨예하게 대립하고 있지 않습니까? 그런데 결국은 초기는 이미 대가 없이 데이터를 학습했다 하더라도, 장기적으로는 어쨌든 우리가 라이센스 계약을 통해서 비용을 지불하고, 창작자들의 데이터를 써야 되지 않을까. 그렇게 생각합니다. 그 이유 중에 하나는 우리가 만약에 창작자들한테 보상이 주어지지 않으면, 창작자들이 더 이상 새로운 창작을 할 요인이 없어지지 않습니까? 그래서 지속 가능한 AI 생태계를 위해서도 AI 기업하고 창작자 간의 이런 이익의 균형이 필요하다. 다만 그걸 일일이 개별적으로 다 합의를 하는 것은 불가능하기 때문에, AI 기업들이 만들어내는 수익을 분배하는 방식으로 합의점을 찾아가야 되지 않겠느냐. 그렇게 생각하고 있습니다.
◆ 조경준 : 결국 이 인간이 만든 양질의 데이터가 더 귀해지는 시대에서 말씀해 주신 부분들까지 고려해야 하지 않을까 싶습니다. 오늘 말씀 여기까지 듣겠습니다. 고맙습니다. 지금까지 고려대학교 이성엽 교수였습니다.
YTN 김세령 (newsfm0945@ytnradio.kr)
[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지] 기자 admin@slotnara.info
댓글목록
등록된 댓글이 없습니다.
