Skip to main
권정민
데이터 과학자로 다양한 산업군에서 데이터 분석을 수행해오고 있습니다. '데이터를 엮는 사람들,데이터 과학자' 등 데이터 관련된 책을 쓰고 번역합니다.
일론 머스크와 xAI는 과연 '궁극의 AI'를 만들 수 있을까요?
*이 글은 외부 필자인 권정민님의 기고입니다. 일론 머스크가 만든 xAI 일론 머스크는 5년 전, '안전한 AI를 구축한다'라는 목표로 공동 설립한 연구기관 '오픈 AI'에서 손을 뗐습니다. 이유야 여러 가지겠지만, 어쨌든 3년 동안 참여했던 그는 수십억달러를 들고 떠났습니다. 이후 오픈AI는 마이크로소프트와 손잡았고, 현재 전 세계에서 가장 주목받는 기업이 되었죠. 올해 7월 12일, 머스크는 'xAI'란 회사를 설립하면서 AI 전쟁에 다시 한번 뛰어들었습니다. 그가 밝힌 xAI의 목표는 '우주의 진정한 본질을 이해하는 것'입니다. 7월 12일을 강조한 이유가 있습니다. 날짜(7+12+23)를 더하면 42가 나오는데요. SF소설 '은하수를 여행하는 히치하이커의 안내서'에서 '삶과 우주, 모든 것에 대한 궁극적인 질문에 대한 해답'이라고 언급된 숫자입니다. 이 우아하고도 모호한 목표는 호기심 많은 초지능에 대한 머스크의 독특한 비전과 깊이 얽혀 있습니다. 오픈AI와 구글의 '딥마인드' 같은 업체는 인간 사회의 원칙을 준수하는 AI 제작을 기조로 내세우고 있는데요. 머스크는 AI에 특정 가치를 주입하려고 하면, 역으로 정반대 가치를 채택할 확률이 높아져 재앙적인 결과를 초래할 위험이 있다고 줄곧 주장했습니다. xAI를 발표한지 이틀 후, 머스크는 X의 스페이스 채팅 이벤트에 xAI 창업 멤버로 고용한 AI 엔지니어 11명과 함께 참석해서 이렇게 이야기했습니다.
권정민
데이터 과학자
2023-12-08
다이내믹 프라이싱이 만악의 근원은 아닙니다
*이 글은 외부 필자인 권정민님의 기고입니다. 몇 달 전, BTS 멤버 슈가의 콘서트가 논란이 된 적이 있습니다. 명확히 정해진 정가가 아닌 데이터와 알고리즘에 따라 유동적으로 바뀌는 '다이내믹 프라이싱(Dynamic Pricing)' 방식을 적용됐기 때문입니다. 실제로 30만원으로 시작한 티켓 가격은 구매자가 몰리면서 100만원까지 치솟았습니다. 이에 팬들은 SNS에 #'SayNoToDynamicPricing', '#NoDynamicPricing'이라는 해시태그를 붙이며 항의했습니다. 이처럼 요즘 뉴스에서 다이내믹 프라이싱을 다룬 보도가 간혹 등장합니다. 다이내믹 프라이싱은 수요, 공급, 시기, 경쟁 등의 요인에 따라 제품 또는 서비스 가격을 조정하는 가격 책정 전략입니다. 예전에는 일부 분야에서 판매자가 직접 조정하는 방식 정도로 사용되었고, 변동 현황이 쉽게 눈에 띄지도 않았습니다. 하지만 오늘날에는 기술이 발전하면서 인지하지 못하던 곳에서 다양하게 사용하기 시작했고요. 고객이 인지할 수 있는 정도로 가격 변동이 명시적인 경우도 많아졌습니다. 비가 쏟아지는 한밤중 시내에서 모바일 앱으로 택시를 잡으려고 하면 가격이 두세배 뛴 적 있으시죠? 실제로 다이내믹 프라이싱이 작동한 모습입니다. 항공기나 여행지 숙소 가격이 여름이나 연휴 기간에는 올랐다가 비성수기가 되면 뚝 떨어지는 현상도 이미 우리에게 친숙한 다이내믹 프라이싱입니다. 이처럼 완전히 새로운 개념은 아닙니다.
권정민
데이터 과학자
2023-11-17
A/B테스트로 효과를 보지 못했다면? 목표부터 다시 살펴보세요
*이 글은 외부 필자인 권정민님의 기고입니다. 실험과 A/B 테스트 서비스를 운영하는 기업이라면 고객이 서비스를 잘 활용해서 더 많은 가치를 창출하길 바랄 겁니다. 그리고 이를 위해서 매일 어떻게 더 잘 개선할 수 있을지 고민하죠. 어떤 부분을 어떻게 고칠지 직관적으로 접근하거나, 지표를 관찰하거나, 여러 안을 만들어서 그중 최선을 찾아가기도 합니다. 하지만 오늘날에는 대부분 실험을 거칩니다. 여기서 말하는 '실험'은 학술 연구에서 말하는 실험보단 조금 느슨한 실무적인 정의입니다. '아이디어와 현실을 객관적으로 비교하기 위해 데이터를 수집하는 수단'을 말합니다. 아이디어를 실현할 때 일어나리라 예상되는 상황에 대한 가설을 만들고, 실험을 거쳐 이 가설이 실제로 일어나는지 데이터로 확인합니다. 이 실험 수단으로 사용되는 대표적인 방법이 'A/B 테스트'입니다. 오늘날 A/B 테스트는 서비스를 새로 출시하거나 업데이트하는 경우, 항상 거쳐야 하는 관문처럼 자리 잡았을 정도로 많은 기업에서 도입하고 활용하는 기법입니다. A/B 테스트는 각 제품의 대조군 (보통 현재 사용하고 있는 방식)인 'A'보다 개선안인 'B'가 더 나은지를 판단하기 위해 임의로 하나씩 고객에게 노출시킨 후, 반응을 측정하는 방식으로 진행합니다. 다양한 실험 방법 중에 직관적이고 구현 비용은 상대적으로 저렴하여 널리 퍼지게 되었습니다. 심지어 어떤 기업은 A/B 테스트를 신봉하기도 합니다.
권정민
데이터 과학자
2023-10-19
너도 나도 원하는 '성장', 구체적으로 생각해보신 적 있나요?
*이 글은 외부 필자인 권정민님의 기고입니다. 직장인들과 이야기를 나누다 보면, 다들 '성장'을 염두에 두고 있다는 사실을 문득 깨닫게 됩니다. 저 역시 팀원들과 면담하면서 '성장하고 싶다'라는 이야기를 많이 듣곤 했습니다. 혹자는 동료가 성장하려 하지 않고 자꾸 자기 자리에만 있다고 투덜거립니다. 많은 교육 플랫폼에서도 성장에 대해 이야기하죠. 이렇게 요즘 '성장'이 중요한 화두이자 목표라는 느낌을 많이 받습니다. 성장의 정의는 사람마다 다릅니다. 그런데 가끔 혼란스럽습니다. 그들이 말하는 성장이 과연 무엇인지 정의하기 쉽지 않거든요. 심지어 개개인이 말하는 성장이 비슷한 듯 다른 것 같기도 합니다. 보통 성장이라는 키워드를 말할 때는 동일한 무언가를 가리킨다고 생각하지만, 실제로는 사람마다 생각이나 방향이 다소 다릅니다. '각자 기술 역량을 향상하는 것일까?'라고 생각해 봤는데요. 어떤 경우에는 맞지만, 어떤 경우에는 아닙니다. 무언가 새로운 것, 혹은 최신 트렌드에 맞는 무언가를 하는 걸까요?
권정민
데이터 과학자
2023-09-22
프롬프트 엔지니어링, AI에게만 쓸모 있는 게 아닙니다
*이 글은 외부 필자인 권정민님의 기고입니다. 사람들이 '프롬프트 엔지니어링'을 배우기 시작했습니다. 챗GPT, 구글 바드(Bard) 등이 등장하면서 대규모 언어모델(LLM)로 만든 생성 AI가 널리 퍼졌습니다. 이 생성 AI를 다양하게 활용하고자 하는 욕구도 덩달아 크게 늘었죠. 그 반작용으로 과제나 글을 공모하는 곳에 생성 AI를 무단으로 활용하는 사례가 발생하면서 이에 대한 대책을 급히 마련해야 했고요. 생성 AI 사이트에 질문하는 과정에서 기업 자산인 코드를 업로드해서 보안 문제가 생기기도 했습니다. 생성 AI를 업무와 학습에서 어떻게 효과적으로 활용할 수 있을지를 두고 다양한 논의가 활발히 이루어지고 있습니다. (참조 - 생성형AI가 실제로 업무 효율을 높인다는 실험 결과가 나왔습니다) 하지만 생성 AI는 이런 열광적인 반응을 완벽하게 만족시켜 주지 못했습니다. 기본적으로 '할루시네이션(hallucination)'이라는 큰 약점을 피하기 힘들고요. (참조 - GPT-4는 ChatGPT의 한계를 넘어설 수 있을까?) 이를 제외하더라도 답변이 다소 모호하거나 입력한 사람이 원하는 방향과 다른 방향으로 답하는 등 불만족스러운 상황이 적잖게 발생합니다. 정해진 답이 없는 글이나 그림, 혹은 반대로 아주 명확한 답이 있는 코드나 단순 지식을 찾는 경우에는 꽤 도움이 되지만요. 그 이상의 답을 원하는 이용자에겐 생성 AI가 아직 미숙해 보입니다.
권정민
데이터 과학자
2023-08-24
생성형AI가 실제로 업무 효율을 높인다는 실험 결과가 나왔습니다
*이 글은 외부 필자인 권정민님의 기고입니다. 구글의 '바드'나 'ChatGPT' 같은 대화식 생성 AI가 빠르게 대중화되면서, AI를 활용해 업무를 더 편하게 하고 싶다는 니즈도 함께 늘고 있습니다. 실제로 생각보다 많은 직장인이 생성 AI를 업무에 활용하고 있다고 합니다. 그렇지 않더라도 업무 효율에 도움이 되리라 기대하는 분이 많습니다. 노션이나 MS오피스 같은 업무용 툴에 '노션 AI', '코파일럿'이라는 형태로 전용 AI가 일부 적용됐는데요. 이들을 이미 사용해 왔던 기업 중심으로 업무가 편해졌다는 이야기가 들려옵니다. 크게 보안에 문제없는 선에서 생성 AI를 활용하는 방안을 두고 다양한 논의가 진행 중입니다. (참조 - 깃허브 "개발자, 코파일럿의 생산성 향상 효과 긍정적 평가") (참조 - 직장인들 AI '열공 모드'…36% "호기심 넘어 업무에 활용") 물론 부작용도 없지 않습니다. 업무에 활용하려고 생성 AI에 코드나 데이터를 넣었다가 보안 관련 문제가 발생한 사례가 여러 회사에서 나왔습니다. (참조 - '챗GPT, 회사서 쓰지 마'…미국 대기업들도 금지령) (참조 - "구글, 직원들에 챗GPT·바드에 회사 중요정보 입력말라") 과연 생성 AI는 정말로 업무 효율을 높여줄 수 있을까요?
권정민
데이터 과학자
2023-07-17
데이터가 중요해진 시대, '시민 데이터 과학자’가 주목받고 있습니다
*이 글은 외부 필자인 권정민님의 기고입니다. 기업들이 '데이터 활용 가능한' 인력을 찾기 시작한 지는 꽤 지났지만, 최근 들어 더욱 본격적으로 움직이는 듯합니다. 채용 공고를 보면 SQL 사용자를 우대한다든지 직무기술서(JD)에 간단한 데이터 분석이 포함되는 등 직군에 상관없이 데이터를 어느 정도 다룰 수 있는 인력을 찾는 기업이 많습니다. 이런 트렌드는 누구든지 스스로 데이터를 활용해서 업무를 할 수 있는 상태인 '데이터 민주화'에 필요한 '시민 데이터 과학자'를 지향하는 형태라고 정리할 수 있겠습니다. (참조 - 떠다니던 데이터를 제대로 이용하려는 노력, '의사결정 인텔리전스(DI)') 데이터 민주화는 피할 수 없는 흐름입니다. 분야를 막론하고 데이터를 요하는 빈도는 늘었지만, 데이터 전문가는 항상 부족합니다. 데이터를 전문적으로 다루지 않는 직종이더라도 스스로 데이터를 조회하고, 나아가 데이터 분석 도구를 직접 다루기 위해 배워야 하는 상황이 점차 늘었습니다. '시민 데이터 과학자(Citizen Data Scientist)'가 본격적으로 떠오르기 시작한 배경입니다. 시민 데이터 과학자는 ㅇ 통계나 데이터 과학 전문가는 아니지만 ㅇ 범용 데이터 과학 도구 및 기술을 활용해 ㅇ 비즈니스 문제를 해결하는 사람 을 지칭하기 위해 가트너에서 제시한 용어입니다. 전문 훈련을 받지 않은 사람들이 자발적으로 과학 연구에 참여한다는 뜻인 '시민 과학(Citizen Science)'에서 확장된 형태라고 볼 수 있습니다. 보통 데이터 분석 경험이 어느 정도 있고, 데이터 과학을 활용한 업무 개선에 관심 있는 현업 비즈니스 사용자가 해당하겠네요. HR, 재무, 마케팅, 디자인 등 다양한 분야에서 보다 적극적으로 데이터를 활용하는 인력을 시민 데이터 과학자라고 생각하시면 될 것 같습니다. 시민 데이터 과학자 확산을 이끈 데이터 과학자 공급 부족
권정민
데이터 과학자
2023-06-16
떠다니던 데이터를 제대로 이용하려는 노력, ‘의사결정 인텔리전스(DI)’
*이 글은 외부 필자인 권정민님의 기고입니다. 요즘 채용 사이트를 보다 보면 데이터를 잘 활용할 줄 아는 전략 분야 인원, 임원 직속 의사결정 관련 스태프, 혹은 의사결정 관련 데이터 분석가를 찾는 공고가 쉽게 눈에 띕니다. 이런 변화가 조금은 신기하지만, 어떻게 생각하면 자연스러운 흐름이기도 합니다. 이런 흐름이 눈에 띄게 된 이유는 여러 가지일 텐데요. 최근 데이터 과학 분야에서 '의사결정 인텔리전스(DI)'가 대두되고 있는 현상도 무관하진 않을 것 같습니다. 이번 글에선 이 의사결정 인텔리전스에 대해 좀 더 자세히 살펴보겠습니다. 의사결정 인텔리전스란? 가트너에 따르면, 의사결정 인텔리전스(Decision Intelligence)는 의사결정 모델과 프로세스를 설계, 모델링, 조정, 실행, 모니터링하는 실용 분야입니다. 여기엔 데이터 분석 및 에이전트 시스템, 진단 및 예측 분석, 의사결정 관리 같은 다양한 기법이 활용됩니다. (참조 - Decision Intelligence) 보시다시피 주제가 너무 광범위해서 다소 모호해 보이기도 합니다. 하지만 1990년대 경영과학에서 사용된 '의사결정 과학(Decision Science)'이나 현장에선 이미 다양하게 활용하고 있는 '비즈니스 인텔리전스(BI)'를 오늘날 상황에 맞춰 좀 더 적극적인 역할을 강조하는 방식으로 다듬으면서 만들어진 용어입니다. 그래서 정의가 아직 명확하지 않다는 점을 감안해 주시길 바랍니다.
권정민
데이터 과학자
2023-05-22
데이터 라벨링 오류, 그냥 지나치기엔 너무나 위험합니다
*이 글은 외부 필자인 권정민님의 기고입니다. 여러 사람이 나온 사진을 저장하면, 자동으로 누가 나왔는지 찾아서 분류해 주는 기능. 비교적 최근에 나온 스마트폰을 사용하신다면, 한 번쯤 경험해 보시지 않았을까 싶은데요. 간혹 그 사진이 잘못 분류되거나 다른 사람 이름이 달린 모습도 보셨을 겁니다. 특히 주소록에 해당 사람의 프로필 사진을 연예인이나 캐릭터 이미지로 등록한 경우에 종종 발생합니다. 주소록에 넣은 사람 이름이 일종의 '라벨' 역할을 한 겁니다. 이렇게 개인 스마트폰이라는 작은 시스템에서도 데이터 라벨링 오류가 심심치 않게 발생합니다. 물론 혼자만 보는 시스템에서 생긴 일이니까 작은 해프닝이라고 넘어가도 괜찮지만요. 많은 사람이 자주 사용하는 인공지능 시스템에서 이런 오류가 발생한다면 어떨까요? 라벨링 오류는 기존에도 문제였지만, 요즘처럼 인공지능이 대두되는 시점에선 더욱 큰 문제를 야기할 수 있습니다. 앞서 살펴봤다시피 데이터 라벨링은 기계 학습 및 인공 지능 시스템의 성능에 중요한 역할을 합니다. 시스템은 데이터 라벨링을 통해 사람이 이해할 수 있는 형태의 데이터 기반으로 학습하고 판단합니다. (참조 - 인공지능 시대에 더욱 각광받을 '데이터 라벨러'의 명과 암) 데이터 라벨링은 사람(데이터 라벨러)이 직접 작업합니다.
권정민
데이터 과학자
2023-04-17
인공지능 시대에 더욱 각광받을 '데이터 라벨러'의 명과 암
*이 글은 외부 필자인 권정민님의 기고입니다. 요즘 데이터 관련 기사에서 '데이터 라벨러'라는 단어를 어렵지 않게 볼 수 있습니다. 자율주행차, 안면 인식, 챗GPT 같은 각종 인공지능 서비스가 급부상하면서 이 직업도 빠른 속도로 친숙해졌습니다. 하지만 갑자기 떠올랐다보니 정작 직업 자체에 대해서는 피상적으로 알려진 감이 있지 않나 싶습니다. 먼저 '데이터 라벨링'이 무엇인지 살펴보겠습니다. '데이터 라벨링'이란 작업은 일종의 문서 분류나 자료의 수를 세는 것과 유사한 맥락입니다. 즉, 갑자기 새롭게 만들어진 일은 아닙니다. 다만 '사람이 필요한 이유'가 달라졌습니다. 예전에는 많은 자료를 집계하고 정리하기 위해 필요했다면, 이제는 기계가 데이터를 학습하기 위해 필요해졌다고 정리할 수 있습니다. 인공지능은 기계학습(머신러닝) 알고리즘으로 만듭니다. 말 그대로 '기계'가 '데이터'를 '대량으로 학습'하는 알고리즘입니다. (참조 - AI, 머신러닝 그리고 딥러닝의 변천사) 그런데 기계가 동시다발적으로 학습하는 엄청난 분량의 데이터를 사람이 하나하나 관리하긴 힘듭니다.
권정민
데이터 과학자
2023-03-14
대화형 인공지능 시대.. 데이터 과학자는 살아남을 수 있을까요?
*이 글은 외부 필자인 권정민님의 기고입니다. 최근 오픈AI의 대화형 인공지능 'chatGPT(챗GPT)'가 화제입니다. 대화형 인공지능의 필요성이야 예전부터 많았지만, 이전까지 우리가 본 대화형 인공지능은 한계가 적지 않았습니다. 그래서 주로 서비스 안에서 고객 상담을 응대하는 '챗봇' 형태였죠. 대화도 아주 자연스럽다기보단 일부 맥락에서만 진행된 수준이었습니다. (참조 - 채팅하는 로봇, 챗봇의 모든 것) chatGPT는 어떤 주제를 요구하든 인간의 언어 형태를 모사해서 자연스러운 대답을 내놓습니다. 내용 자체가 굉장히 그럴 듯하고, 심지어 피드백을 통해 매우 빠르게 개선하고 있기까지 합니다. 아직 연구 검증 단계여서 무료 베타 버전에 머물러있지만, 사람들은 열광적으로 반응하며 다양한 방식으로 활용하고 있습니다. (참조 - "구글은 이제 끝났다".. 수능 문제 해설에 코드 리뷰까지 해주는 '챗GPT') (참조 - OpenAI를 둘러싼 몇 가지 사실들) chatGPT로 무엇을 할 수 있을까요? 무언가에 대해서 물어보면 답해주는 건 기본이요, 개발자 대신 코드를 작성하거나 고칠 수 있고, 학생 대신 수학 문제를 풀 수 있습니다.
권정민
데이터 과학자
2023-02-10
가트너 하이프 사이클로 살펴보는 2023년 데이터 업계 트렌드
*이 글은 외부 필자인 권정민님의 기고입니다. 2023년 계묘년 새해가 밝았습니다. 연말연시에는 많은 분들이 새해 계획을 세우는데요. 업무에서도 다르지 않습니다. 물론 미래를 어느 정도 내다보고 계획을 세우기는 항상 어렵습니다. 그래서 트렌드 파악 및 향후 전망을 살펴보고자 유명 리포트를 참고하는 모습을 많이 보셨으리라 생각합니다. 정보 기술 연구 자문 기업 '가트너'에서 내놓는 트렌드 리포트는 여러 분야에서 널리 사용하는 리포트 중 하나인데요. 가트너 트렌드 리포트에서 가장 유명한 특징이 '하이프 사이클(hype cycle)'입니다. 하이프 사이클은 크게 ㅇ 기술 촉발(Technology Trigger) ㅇ 부풀려진 기대의 정점 (Peak of Inflated Expectation) ㅇ 환멸의 골짜기(Trough of Disillusionment) ㅇ 계몽의 경사(Slope of Enlightenment) ㅇ 생산성 안정(Plateau of Productivity) 다섯 단계로 나눠 기술의 성숙도를 표현하는 시각 도구입니다. 각 단계에 다음 해에 들어갈 것으로 예상하는 기술 주제를 놓아둔 그래프를 보면서 자연스럽게 각 기술의 새해 트렌드도 한눈에 볼 수 있도록 했죠. 보다 자세한 설명은 위키피디아 문서를 참고하세요. (참조 - Gartner hype cycle) 하이프 사이클은 각 단계에 배치한 뚜렷한 근거나 정량적이고 객관적인 기준이 없다는 비판에서 자유롭지 못합니다.
권정민
데이터 과학자
2023-01-16
1
;