AI Agent의 허허 실실

박준성 박사: Univ. of Iowa 종신교수, 삼성SDS CTO, KAIST 초빙교수
Feb 13
16 min read

Updated: 6 days ago

AI 역사상 가장 큰 경영성과를 낸 예측적/분석적 AI Agent

언어모델(Language Model: LM) 기반의 AI 에이전트가 기업에서 LM(즉, 생성형 AI)을 경영 성과 개선에 활용할 수 있는 기술로 많은 관심을 끌고 있다.

AI 에이전트는 생성형 AI의 출현 전에도 존재했던 기술이다. 예측적/분석적(Predictive/Analytical: P/A) AI 기반의 AI 에이전트가 아마존, 구글, 페이스북, 알리바바 등 빅테크 기업에서 2000년대 초부터 개발되기 시작했고, 2010년대 초에 이미 이 기업들의 경영에 핵심 요소로 자리 잡았다.

예측적/분석적(P/A) AI 기반의 AI 에이전트가 기업의 경영 성과 개선에 가장 크게 기여한 사례로는 구글의 광고 에이전트를 꼽는다. 구글의 연 400조 원 광고 수입의 대부분이 AI 에이전트의 기여로 간주되고 있다. 아마존의 개별 고객에 대한 상품 추천 시스템도 대표적 성공 사례의 하나이다. 아마존 소매 판매의 35% 정도가 추천 시스템의 기여로 알려져 있다.
이 외의 성공적 사례들은 페이스북과 틱톡의 피드 우선순위 결정 에이전트, 우버와 알리바바의 마켓플레이스 가격 결정 에이전트, UPS의 배송 경로 최적화 에이전트, 페이펠과 스트라이프의 사기 탐지 에이전트 등을 들 수 있다.
제조업 부문의 성공 사례로는 GE와 지멘스의 예방적 유지보수 에이전트, 토요타와 BASF의 공정 효율화 에이전트, 인텔과 삼성전자의 생산계획 에이전트, 보쉬와 폭스콘의 불량 탐지 에이전트, 슈나이더 전자의 에너지 절약 에이전트 등을 들 수 있다. 예를 들어, 슈나이더는 에이전트 덕분에 에너지 비용의 30%, 지멘스는 기계 유지보수 비용의 40%, GE는 항공사 제트 엔진 유지보수 비용을 년 수백만 달러 절약하고 있다고 한다.

예측적/분석적 AI 에이전트의 SOA 아키텍처

예측적/분석적 AI 에이전트는 기계학습(Machine Learning: ML)과 최적화(Optimization)를 활용한 AI 에이전트들이다. 주로 활용된 기계학습 모델은 의사결정 트리, 회귀 분석, 시계열 분석, 이상 탐지, 강화 학습(RL) 모델들이다. 최적화에는 모델예측 제어(MPC), 선형, 정수 및 2차 계획법(LP, IP, QP)과, 시뮬레이티드 어닐링, 타부 서치, 유전 알고리즘 등 휴리스틱을 포함하는 경영과학(Operations Research: OR) 모델 및 알고리즘들이 활용되고 있다.

아래 아키텍처 다이어그램은 P/A AI 기반 에이전트의 아키텍처를 예시한다:

예측적/분석적 AI 기반 에이전트의 아키텍처는 반드시 서비스 지향 아키텍처(Service-Oriented Architecture: SOA)이어야 한다. 위의 그림의 블록들은 SOA 서비스이다. 에이전트의 핵심 프로세스인 의사결정(Decision) 및 행동(Action)의 반복 실행 프로세스의 확정적 제어(Deterministic Control)에는 비즈니스 프로세스 관리(Business Process Management: BPM) 기반의 중앙집중형 오케스트레이션(Orchestration)을 적용한다. 에이전트 핵심 프로세스를 지원하는 주변 서비스들의 동적 조합에는 이벤트 발행-구독(Publication/Subscription)을 이용한 분산형 코레오그래피(Choreography)를 적용한다. 블록들 간의 실선 화살표는 오케스트레이션이 제어하는 서비스 실행 순서를 표시하고, 점선 화살표는 코레오그래피를 통해 구현되는 서비스 실행 순서를 표시한다. 서비스와 DB 간의 화살표는 Read, Write 관계를 표시한다.

에이전트가 시작되면 오케스트레이터가 상황인지(Perception) 서비스를 호출하여 에이전트의 환경, 목표 정의 및 달성 정도, 세션 히스토리 등 상황(Context) 및 상태(State) 정보를 장기 메모리(Long-Term Memory: LTM) DB로부터 확보한다. 다음, 정책(Policy) 서비스를 호출하여 준수 규칙, 제약조건, 위험 및 보안 정보 등을 LTM에서 파악한다. 다음, 의사결정 모델링(Decision Modeling) 서비스를 호출한다. 이 서비스는 의사결정해야 할 문제를 에이전트의 상황/상태와 정책/제약조건을 반영한 경영과학(OR) 모델로 정형화한다.
오케스트레이터가 다음에 정형화된 의사결정 모델을 파라미터 예측(Parameter Prediction) 서비스로 전달한다. 이 서비스는 AI 기계학습 모델의 추론(Inference)을 통해 기호로 표현된 의사결정 모델(Symbolic Model)에 포함된 파라미터들의 값을 예측한다.
오케스트레이터가 파라미터 예측 서비스의 결과, 즉 모든 파라미터가 수치화된 모델(Numerical Model)을 최적화(Optimization) 서비스로 전달한다. 최적화 서비스는 주어진 모델의 최적 솔루션을 미리 개발해 놓은 알고리즘(수학 계획법(Mathematical Programming), 휴리스틱(Heuristics), 극대 원리 기반의 최적 제어, 큐잉 네트워크 분석, 이산 사건 시뮬레이션 등)을 실행하여 계산한다.
오케스트레이터가 다음에 다시 상황인지 서비스와 정책 서비스를 호출하여 현재 상황과 제약조건들을 파악한 후, 행동 추천(Recommendation) 서비스를 호출한다. 이 서비스는 상황인지 서비스가 제공한 상황 정보, 정책 서비스가 제공한 제약조건 정보와 최적화 서비스가 추천한 최적 솔루션을 기반으로, 실제로 실천 가능한 최선의 행동을 결정한다.
오케스트레이터가 행동 실행(Execution) 서비스를 호출하여 추천된 최선의 행동을 실행한다. 에이전트 자체 내 SW를 실행하거나 기업 내외의 SOA 구조의 SW 애플리케이션들을 호출하여 실행한다. 이 실행 과정에서 오류가 발생할 경우, 롤백 및 보상 활동(Compensation Activity) 실행을 통해 오류를 복구할 수 있다. 행동 실행이 완료되면, 에이전트 반복 실행 종료 여부를 결정하는 종료(Termination) 서비스를 호출하고, 반복 실행이 결정되면 에이전트의 첫 서비스인 상황 인지 서비스를 다시 시작한다.
행동이 실행되는 과정에서, 코레오그래피를 통해, 모니터링(Monitoring) 서비스가 실행 과정을 감사(Audit)할 수 있도록 실행 로그를 기록하고, 평가(Evaluation) 서비스가 행동의 결과를 실시간으로 수집/평가하며, 학습(Learning) 서비스가 평가 결과로부터 학습된 교훈(Lessons Learned)을 추출하여 AI 데이터 인제스천(Data Ingestion) 서비스에 피드백한다.

P/A AI 에이전트는 예측적/분석적 AI 모델의 훈련, 피처 엔지니어링 및 모델 테스팅을 주관하며, 끊임없이 모델의 재훈련을 오프라인으로 또는 이벤트 Pub/Sub을 통해 자동 실시한다. 학습 서비스가 학습한 교훈을 AI 데이터 인제스천 서비스에 피드백하면, 데이터 인제스천 서비스가 AI 데이터 레이크를 업데이트한다. 이 업데이트 이벤트의 Pub/Sub을 통해, 또는 뱃치(Batch) 스케줄에 따라, AI 모델 훈련 서비스(AI Model Training)가 가동되고, 이 서비스는 AI 모델 레지스트리(Model Registry) 데이터베이스를 업데이트한다.

파라미터 예측 서비스는 이렇게 지속적으로 업데이트되는 AI 모델 레지스트리를 이용하여 AI 모델 추론을 수행한다. 이렇듯, P/A AI 에이전트는 의사결정 → 행동 → 학습 → 의사결정의 피드백 루프가 닫혀 있어(Closed Feedback Loop), 지속적으로 의사결정 모델, 최적 행동, 경영 성과를 개선할 수 있는 것이다.

에이전트 서비스들의 장기적 데이터 스토어의 접근 패턴은 다음과 같다.

데이터 레이크는 AI 모델의 훈련 및 테스팅에 필요한 방대한 원천 데이터를 저장하고, AI 데이터 엔지니어링의 첫 단계인 뱃치 또는 스트리밍 처리를 통한 데이터 인제스트, 후속 단계인 ETL과 피처 엔지니어링을 지원한다.
참고로 최적화 서비스는 처리 속도가 중요하기 때문에 데이터 스토어를 사용하지 않는다. 오케스트레이터가 파라미터 예측 서비스와 최적화 서비스 간의 커뮤니케이션을 통해 최적화 모델 파라미터의 예측치를 직접 전달한다.
모델 레지스트리를 구현하고, 상황인지 서비스의 상황/상태 정보, 정책 서비스의 정책/제약조건 정보, 모니터링 서비스의 실행 행동 로그 등을 저장하는 LTM의 구현에는 주로 관계형 DB를사용하지만, 학습 서비스의 학습된 교훈 같은 일부 비정형 데이터는 NoSQL DB도 사용한다. 데이터 웨어하우스는 행동 실행 히스토리와 실행 성과 측정치를 저장하여 관련 임직원들이 OLAP 쿼리, 분석 및 보고하는 데 사용한다.

이와 같은 아키텍처를 갖춘 예측적/분석적 AI 에이전트를 개발하려면, 수학, 통계학, 경영과학(OR), AI, 데이터 엔지니어링, 소프트웨어 엔지니어링 지식과 실전 스킬을 두루 갖추어야 한다는 것을 알 수 있다.

예측적/분석적 AI 에이전트의 특장점

이와 같은 아키텍처를 갖춘 예측적/분석적(P/A) AI 에이전트는 다음과 같은 특징/장점을 갖는다.

SOA 아키텍처를 통한 관심사의 분리(Separation of Concerns): 에이전트의 의사결정 모델링, P/A AI 모델을 이용한 의사결정 모델의 파라미터 값 예측, 이 P/A AI 모델의 훈련 및 테스팅, 모든 파라미터가 수치화 된 의사결정 모델(Numerical Model)의 최적 솔루션 알고리즘의 실행, 산출된 최적 솔루션을 고려한 실천 행동의 결정, 결정된 행동의 자동 실행 등 모든 서비스를 독립적으로 개발, 변경, 배포, 운영함으로써, 상황/상태 변화에 대응한 에이전트의 변경을 신속히 처리할 수 있고(Agility), 에이전트의 변경 시 서비스 별로 재사용할 수 있고(Reusability), 에이전트를 적용하는 경영 활동의 규모(Scalability)나 기간(Durability)을 크게 확장 시켜 나아갈 수 있다.
AI와 최적화/행동 실행의 분리: 확률적(즉 비확정적: Nondeterministic) AI 적용 부분과 확정적(Deterministic) 최적화, 행동 실행 부분을 분리함으로써, 에이전트의 의사결정과 실행 행동이 AI 모델로 부터의 독립성, 테스트 가능성(Testability), 설명 가능성(Explainability) 및 재현성(Reproducibility)을 가질 수 있고, 따라서 에이전트에 대한 현업의 신뢰도를 높이고, 전사 수준의 거버넌스를 강화하고, 법/규제의 준수를 용이하게 한다.
에이전트의 시스템 수준의 상태 관리: 실시간 환경 및 상황 정보, 세션 히스토리, AI 예측 모델의 피처 변동, 의사결정 모델의 파라미터 값 변동, 의사결정 히스토리, 실천 행동 로그 등 에이전트 시스템 전반의 상태를 관계형 DB, DW, Data Lake 등 장기 메모리에 저장, 관리, 활용함으로써 실천 행동이 현실적 제약조건 하에서 합리적으로 제어되도록 하고, 또한 실전 행동이 실제 효과의 평가를 기반으로 검증되도록 한다.
상황 관찰 → 예측 → 의사결정 → 행동 → 결과 관찰 → 학습 및 개선이 반복되는 피드백 루프: 데밍 사이클(Plan → Do → Check → Act), 6 시그마(Define → Measure → Analyze → Improve → Control) 등 경영혁신 기법들이 모두 그렇듯이, 에이전트도 행동 실행 결과 평가의 피드백을 기반으로 지속적으로 개선함으로써, 기업 경영성과 개선에 효과적으로 기여한다.
의사결정 시스템: 결국 P/A AI 에이전트는 의사결정 프로세스, 의사결정의 계량적 모델, 의사결정 모델의 파라미터 예측을 위한 AI 모델, 의사결정 모델의 최적 솔루션 알고리즘, 최적 솔루션 기반의 행동 추천, 행동의 실행, 행동 결과의 측정 및 평가, 평가 결과의 피드백, 피드백 기반의 지속적 학습 및 개선, 이 모든 기능을 SOA 아키텍처로 구현한 SW 애플리케이션, 이 애플리케이션의 실행 인프라 등 많은 요소들이 결합된 하나의 복잡한 의사결정 시스템이고, 그 안에서 AI는 작은 요소일 뿐이다.

빅테크 기업의 예측적/분석적 AI 에이전트가 일반기업으로 확산되지 못한 이유

P/A AI 에이전트가 AI 역사상 산업에 가장 큰 경제적 기여를 할 수 있었던 것은 위의 특징들에 기인하는 것이다. 그런데 P/A AI 에이전트를 이용해 매출, 수익 등 경제적 효과를 크게 누린 것은 초거대 빅테크 기업들로 제한되어 왔고, 전 세계 일반 기업들로 확산되지는 못하였다. 빅테크 기업들이 P/A AI 에이전트들을 2000년대 초에 개발하기 시작했고, 2010년대 초에 이미 경영의 핵심 요소로 정착시켰는데, 그 후 15년이 지나도록 그러한 효과 있는 에이전트들을 일반 기업 들에선 모방하지 못한 이유는 무엇일까?

그 이유는 요약컨대, P/A AI 에이전트가 경영 성과 개선에 크게 기여하려면,

에이전트가 달성해야 할 목표가 구체적이고 자동으로 계량적으로 측정 가능하고,
에이전트가 적용되는 경영 의사결정이 매출, 이익 등 전사 경영 성과에서 막중한 비중을 차지하고,
의사결정 방법과 과정이 전사 차원에서 표준화되고, 그 표준화된 방법이 복잡한 경영과학(OR) 모델과 솔루션 알고리즘을 포함하고,
이 표준화된 의사결정에 필요한 역사적 데이터 및 실시간 발생 데이터의 품질과 관리 체계가 고도화되어 있고,
이 표준화된 의사결정이 막대한 양으로 반복 적용되고,
에이전트의 개발을 위한 투자의 수익을 단기적인 관점이 아닌 장기적인 관점에서 추구해야 한다.

예컨대, 구글의 광고 에이전트나 아마존의 소매 상품 추천 에이전트는 하루에 수십억 회 실행된다. 따라서 광고 매출, 상품 매출 등 회사의 재무적 성과에 막대한 비중을 차지하고, 밀리 세컨드 단위의 피드백 루프를 통한 지속적 개선 효과도 크다.

구글의 광고나 아마존의 상품 추천 방법과 과정은 상황 인지, 의사결정 모델링 및 파라미터 예측, 최적 솔루션 산출 및 실천 행동 선정, 현장 직원이 개입할 수 있는 행동의 실행, 행동 결과의 평가 및 피드백 등 일련의 프로세스 활동이 부서 별로 흐트러져 있지 않고 전사 차원에서 End-to-End 표준화되어 있다.

그 End-to-End 프로세스를 구성하는 각 모듈이 SOA 서비스로 구현되어 있어 독립적으로 변경 가능하고, 변경 후 빌드/배포를 위한 인프라 운영이 고도로 자동화되어 있기 때문에, 의사결정 및 행동 실행의 오류 복구나 개선을 신속히 저렴히 반복적으로 수행할 수 있다.

이러한 제반 조건들, 즉 복잡한 경영과학(OR) 모델과 솔루션 알고리즘을 내포한 에이전트, 회사의 핵심 운영 프로세스에 이 에이전트의 적용, 이 운영 프로세스의 End-to-End 표준화, 이 표준 운영 프로세스의 SOA 애플리케이션으로 구현, 이 애플리케이션이 필요로 하는 고품질 데이터의 체계적 관리, 애플리케이션의 운영 및 데이터 저장을 위한 인프라의 IaC(Infrastructure as Code)를 통한 자동화, 에이전트 목표 성과의 계량적 측정 자동화, 에이전트 개발 투자에 대한 장기적 시야에서의 수익 기대 등을 일반 회사에서는 잘 구비하여 실천하기 어렵기 때문에, 빅테크 기업들에서 성공한 AI 에이전트들을 일반 기업에서 모방하기 어려운 것이다.

요약컨대, P/A AI 에이전트의 경제적 성공은 기업의 경영 및 IT 성숙도가 최첨단일 때, 즉 Enterprise Architecture(EA), Business Process Management(BPM), Metadata Management(MDM), Operations Research(OR), Artificial Intelligence(AI), Service-Oriented Architecture(SOA), Infrastructure Automation, Cloud-Native Computing, Software Engineering, Data Engineering, Platform Engineering 등 제반 IT 영역의 인적 및 물적 자원, 기술 및 관리 수준이 최첨단이고, 경영전략, 경영혁신, 경영관리의 수준도 높을 때 가능하다는 점을 주지해야 한다.

예측적/분석적 AI 기반 비자율적(Non-autonomous) 애플리케이션: DM, BI, Big Data Analytics

P/A AI를 자동화된 자율(Autonomous) 행동 시스템인 에이전트에 활용하지 않고, 사람이 중간 중간 개입하는 기업 운영프로세스의 의사결정 과업에 내장시켜 활용하는 것은 이미 1990년대에 시작되었다. 당시엔 이를 데이터 마이닝(Data Mining)이라 불렀다. 예컨대, 월마트 같은 대형 슈퍼마켓에서 실시간 POS(Point of Sale) 거래 데이터를 테라바이트 규모의 데이터 웨어하우스에 저장하고, 이에 군집분석(Cluster Analysis) 같은 기계학습 모델을 적용해 고객의 구매 패턴을 분석했다. 당시 월마트가 사람들이 맥주와 기저귀를 같이 산다는 걸 발견하고, 맥주와 기저귀를 인접시켜 진열했다는 것은 유명한 이야기이다.

IBM은 1990년대 말부터 CRISP-DM(Cross-Industry Standard Process for Data Mining)이라는 데이터 마이닝 방법론을 보급하였다. 이 방법론에서도, 데이터 마이닝이 경영 성과 개선에 크게 기여하려면, AI 분석 활동을 회사의 핵심 운영 프로세스에 내장 시키고, 분석 결과를 바로 행동으로 옮기도록 정보시스템에 통합해야 한다는 점을 강조하고 있다.

이렇게 기업에서 AI는 비정기적 분석 업무에 활용하는 것 보다, 빈도 높게 반복 실행되는 핵심 비즈니스 프로세스에 내장하고, 그 분석 결과를 SW시스템을 통해 현업 행동에 바로 반영하도록 해야 AI 투자 효과를 극대화할 수 있다. 기업의 AI 투자는 AI를 통합할 비즈니스 프로세스(AI-Integrated Business Process), 즉 지능적 비즈니스 프로세스(Intelligent Business Process)를 설계, 구현하는 데 주력해야 한다는 것이고, 이러한 교훈은 2000년대의 BI(Business Intelligence) 시대, 2010년대의 빅데이터 애널리틱스(Big Data Analytics) 시대를 거쳐, 오늘날의 성공적 AI 에이전트(AI Agent)로 이어지고 있는 것이다.

특히 2010년대에는 클라우드 컴퓨팅 기반의 빅데이터 분석, SOA 기반의 클라우드-네이티브 애플리케이션 아키텍처, BPM 기반의 지능적 비즈니스 프로세스 관리(Intelligent Business Process Management: iBPM) 등의 IT 기술이 동시에 융합적으로 발전함으로써, 오늘날의 효과적인 P/A AI 에이전트의 기틀이 확립되었다.

생성형 AI 애플리케이션의 발전 역사

이제 최근 관심을 모으고 있는 언어모델(LM) 기반의 생성형(Generative: Gen) AI 에이전트에 대해, 지금까지 살펴본 예측적/분석적(P/A) AI 에이전트와 비교하면서 알아보기로 한다.

Gen AI는 2022년 11월 OpenAI사가 ChatGPT를 출시하면서 급속히 확산되기 시작했다. P/A AI는 기업의 의사결정에 있어 모델 파라미터 값을 예측해 주는 간접적인 역할만 하고, 현업 운영 부서들에서 주도적으로 활용하기 시작했던 것과는 대조적으로, Gen AI는 개인과 기업이 의사결정 등 지식 활동에 직접 사용하고, 처음부터 회사 이사회 및 최고경영층의 관심을 받았다.

지난 3년간 대부분 기업에서 Gen AI는 파일럿 단계를 넘어 현업 적용 단계로 넘어 왔고, 일부 기업에서는 핵심 경영 프로세스에 내장 시켜 경영 성과 지표를 측정하는 수준으로 올라 섰다. 그러나 2026년 초 현재, 아직은 Gen AI 투자로부터 높은 수익률을 시현한 기업은 적은 편이다. 2025년 MIT의 연구에 의하면. AI 투자수익률이 플러스인 기업이 조사 대상의 5%였는데 (https://share.google/WgcjVZuYy2idwLXdO), 2026년 PWC의 연구에 의하면 25%로 향상되었다(https://www.pwc.com/gx/en/issues/c-suite-insights/ceo-survey.html).

Gen AI 분야에 RAG(Retrieval-Augmented Generation), MCP(Model Context Protocol), Workflow Automation, A2A(Agent-to-Agent), Multi-Agent Framework 등의 기술이 발전하면서, Gen AI 에이전트가 2023년 중반부터 기업들의 관심을 끌기 시작했다. 그러나 빅테크 기업들은 2024년 초에 이미 그 기술의 한계를 간파하여 핵심 경영 프로세스에의 적용을 중단하였다. 반면, 대부분의 일반 기업들은 뒤늦게 하이프에 올라타, 2026년 현재까지도 파일럿 개발에 부심하고 있다.

그렇다면 지금까지 큰 경제적 성과를 낸 Gen AI 프로젝트는 어떤 특징을 가지고 있는지, 어떤 산업 및 업무 분야에 적용됐는지? Gen AI 에이전트는 왜 아직은 경영 성과 개선에 기여하기 어려운지? 예측적/분석적(P/A) AI 에이전트의 추진 경험으로부터 어떤 교훈을 얻을 수 있는지? Gen AI 기술이 앞으로는 어떤 발전 추세를 보일지? 국내의 기업들은 Gen AI에 대해 어떤 투자 전략과 계획을 세워 추진하는 게 좋을지?

이런 질문에 답하기 전에 먼저 (1) 지금까지 이미 가장 높은 ROI를 시현한 Gen AI 애플리케이션인, RAG를 이용한 프롬프팅 애플리케이션, (2) 이 보다는 취약하지만 조금씩 ROI를 시현하기 시작하고 있는, RAG, MCP, A2A, 워크플로우를 이용해 프롬프트를 보강하는 프롬프팅 애플리케이션, (3) 아직은 ROI 시현에 실패한, 의사결정 및 행동 실행까지 자동화한 Gen AI 에이전트, 이 세가지 시스템의 아키텍처를 비교하면서 살펴 본다.

Type 1 생성형 AI 애플리케이션: RAG 기반 프롬프팅 애플리케이션

사용자 UI 또는 기업 정보시스템이 프롬프트를 애플리케이션에 제출하면 오케스트레이터가 정책 서비스를 시켜 받은 프롬프트의 적합성을 검증한다. 다음, 프롬프트와 관련된 기업 내 정보를 RAG 서비스에서 확보한 후, 프롬프트 조립(Prompt Assembly) 서비스를 호출해 프롬프트를 가공한다. 다음, 정책 서비스를 호출해 프롬프트와 관련된 제약 조건들을 위반하지 않는지 검증한다.
오케스트레이터는 그렇게 가공/검증된 프롬프트를 LM 서비스에 보내 답변을 받는다. 다음, 답변을 정책 서비스에 보내 검증을 받은 후, 원래 프롬프트를 제출했던 사용자 또는 정보시스템에게 제공한다. LM 서비스의 AI 추론은 OpenAI, Gemini, Claude 등 Gen AI 벤더들이 제공하는 기본모델(Foundation Model)을 모델 레지스트리를 통해 사용한다.
한편 코레오그래피를 통해, 모니터링 서비스가 애플리케이션 실행 전체 과정에 대한 로그, 트레이스, 소요 비용과 측정 메트릭을 기록하는 한편, 평가 서비스가 답변에 대한 사용자의 평가, 법/규제의 준수를 기록으로 남긴다.

이 시스템의 주요 사용사례는 기업의 정보 및 지식 검색과 Q&A, 고객 지원, 판매 및 서비스 분야의 챗봇, SW 개발 코파일럿 등이 있다.

Type 2 Gen AI 애플리케이션: RAG, MCP, A2A, 워크플로우 기반 프롬프팅 애플리케이션

사용자 UI 또는 기업 정보시스템이 프롬프트를 애플리케이션에 제출하면, 오케스트레이터(즉, 워크플로우)가 정책 서비스를 호출해 프롬프트를 검증한다. 워크플로우는 RAG 서비스, MCP 서비스, A2A 서비스를 호출해 확보할 수 있는 프롬프트 관련 부가 정보를 획득한 후, 프롬프트 조립(Prompt Assembly) 서비스를 호출하여 이 부가 정보를 바탕으로 프롬프트를 가공한다. 다음, 정책 서비스를 호출해 가공된 프롬프트가 관련된 제약 조건들을 위반하지 않는지 검증한다.
워크플로우는 다음 LM 서비스를 호출해 가공/검증된 프롬프트에 대한 답변, 즉 의사결정, 선택 대안의 추천, 행동 계획 등을 추론하여 문서로 제공한다. Type 1 Gen AI 시스템과 마찬가지로, LM 서비스의 AI 추론은 Gen AI 벤더들이 제공하는 기본모델(Foundation Model)을 모델 레지스트리를 통해 사용한다.
워크플로우는 정책 서비스를 호출하여 최종 문서 산출물을 검증한 후, 검증된 문서를 원래 프롬프트를 제출했던 사용자 또는 정보시스템에게 제공한다. 한편 코레오그래피를 통해, 모니터링 서비스가 애플리케이션 실행 전체 과정에 대한 로그, 트레이스, 소요 비용과 측정 메트릭을 기록하는 한편, 평가 서비스가 최종 산출물에 대한 사용자의 평가, 법/규제의 준수 여부를 기록으로 남긴다.

이 애플리케이션의 최종 산출물은 다양한 성격의 문서이다. 사용사례로는 기업 내 간단한 업무 프로세스에 필요한 콘텐츠 작성, 기업 의사결정에 대한 이유의 설명, 계량적 분석 결과의 해석, SW 코드 생성 등을 들 수 있다.

Type 1 Gen AI 애플리케이션보다 ROI 실적이 저조한 이유는 MCP, A2A, 워크플로우의 추가 활용을 위해 소요되는 비용이 그로 인해 창출되는 가치를 초과하기 때문이다.

Type 3 Gen AI 애플리케이션: 생성형 AI 에이전트

외부 이벤트가 에이전트를 트리거하면, 오케스트레이터(Orchestrator), 즉 워크플로우 레이어가 상황 인지(Perception) 서비스를 호출하여 에이전트 목표 정의, 달성 정도, 세션 히스토리 등의 상황 정보를 확보한 후, 프롬프트 조립(Prompt Assembly) 서비스를 호출하여 프롬프트를 조립한다.
워크플로우는 RAG 서비스를 호출하여 기업 내 정보를 확보하고, 프롬프트를 보완한 후, 행동 계획(Planning) 서비스를 호출한다. 이 서비스는 LM 추론을 통해 행동(Action) 계획을 수립한다. Type 1 및 2 Gen AI 시스템과 마찬가지로, LM 서비스의 AI 추론은 Gen AI 벤더들이 제공하는 기본모델(Foundation Model)을 모델 레지스트리를 통해 사용한다. 따라서 Gen AI 에이전트는 자체 지능을 학습을 통해 개선해 갈 수 없는 한계가 있다.
워크플로우는 다음, 정책(Policy) 서비스를 호출하여 계획된 행동이 정책, 보안, 예산 등의 제약 조건을 위반하지 않는지 검증한다. 워크플로우는 검증된 행동 계획을 실행하는 데 필요한 툴들을 선정하고, MCP 서비스를 호출하여 툴들을, 즉 MCP 서버들을 실행시킨다. 워크플로우는 다음에 행동 실행(Execution) 서비스를 호출하여 관련 실행 시스템들을 수행시킨다. 행동 실행 서비스는 코레오그래피를 통해 A2A 서비스를 가동하여, A2A 프로토콜을 이용해 타 에이전트들을 실행시킬 수 있다.
행동 실행 서비스가 계획된 행동을 실행하는 동안, 코레오그래피를 통해, 모니터링(Monitoring) 서비스를 작동시켜 실행 로그와 소요 비용을 기록하고, 평가(Evaluation) 서비스를 가동시켜 행동 실행 결과를 평가한다. 또한 학습 서비스를 가동시켜 평가 결과로부터 학습된 교훈(Lessons Learned)을 기록한다.
위에서 봤듯이, 예측적/분석적 AI 에이전트는 학습된 교훈을 AI 모델 훈련에 피드백 하여 AI 추론, 즉 파라미터 예측의 성과를 지속적으로 개선해 나아가는데, 이와는 대조적으로 생성형 AI 에이전트는 학습된 교훈을 AI 모델 향상에 쓰지 못하고, 워크플로우 레이어와 프롬프트 조립, RAG 및 정책 서비스들에 피드백 한다. 따라서 생성형 AI 에이전트는 상황적응적(Adaptive) 시스템이지만, 진정한 의미의 학습(Learning) 시스템은 아니다. 이러한 이유로 예측적/분석적 AI 에이전트와 같이 자동 학습 피드백에 의한 ROI의 자동 향상을 누릴 수 없는 것이다.
워크플로우는 행동 실행 계획의 자동 실행이 완료되면, 정책 서비스를 호출하여 행동 실행 결과의 적합성을 판단한다. 다음, 상황 인지 서비스를 호출하여 행동 실행의 결과 상황을 업데이트하고, 에이전트 종료 결정(Termination) 서비스를 호출하여 에이전트 반복 주기의 계속 또는 종료 여부를 결정한다. 반복 주기가 계속될 경우에는 오케스트레이터가 상황 인지 서비스, 프롬프트 조립 서비스 순으로 다시 다음 주기를 시작한다.

생성형 AI 에이전트가 ROI를 시현하지 못하는 이유

이러한 Gen AI 에이전트가 빅테크 기업들에서조차도 ROI를 시현하지 못한 이유를, 반대로 ROI를 크게 시현한 예측적/분석적(P/A) AI 에이전트와 비교하여 살펴보면 다음과 같다.

P/A AI 에이전트는 하루에 수 억 회 반복되고, 회사의 매출, 원가에서 막중한 비중을 차지하고, 경영 성과 기여를 명확히 측정할 수 있는 구글 광고, 아마존 소매 판매 등 핵심 운영 프로세스에 적용할 수 있었는데, Gen AI 에이전트는 고객 지원 서비스, 마케팅, 금융 및 재무 관리, 의료 서비스, SW 개발 등 수행 시간이 길고 빈도는 낮은, 경영 성과 기여를 명확히 측정하기 어렵고, 회사의 매출, 원가에서 차지하는 비중이 작은 경영 활동에 적용할 수 있어 투자 대비 수익 규모가 작다.
P/A AI 에이전트는 의사결정 모델과 실행할 최적 행동을 도출하는 솔루션 알고리즘이 확정적(Deterministic)이고, AI의 역할은 의사결정 모델의 파라미터를 예측하는 데 국한된다. 또한 에이전트 반복 실행의 종료가 수학적으로 결정되고, 자동 결함(Mathematical or Logical Error) 탐지 및 복구가 가능하다. 반면에 Gen AI 에이전트는 수학적인 목적함수나 의사결정 모델이 없고, Gen AI 모델이 확률적, 비확정적(Nondeterministic)으로 실행할 행동을 추론하여 자연어로 표현한다. 자동 결함(Hallucination) 탐지 및 복구가 불가능하고, 에이전트 반복 실행의 종료도 보장이 안 되어 자의적으로 결정해야 한다. 따라서 기업의 경영 성과에 큰 영향을 미치는 운영 프로세스에 적용하기에는 불확실성과 위험이 너무 크다.
P/A AI 에이전트는 하루에 수억 회 반복되는 학습 피드백 사이클을 통해 AI 모델의 경영성과 기여 효과를 계속 향상시켜 나가는데, Gen AI 에이전트는 전혀 제어할 수 없는 Gen AI 기본모델(Foundation Model)을 사용하기 때문에 에이전트 실행 결과를 AI 모델 학습에 피드백할 수 없다.
P/A AI 에이전트는 기업 내 기존의 계량적 의사결정 체계 및 시스템을 기반으로 개발되므로, 개발 원가가 주로 의사결정 모델과 솔루션 알고리즘 개발 원가에 국한되며, 운영 시 한계 비용도 거의 제로에 가까와 적은 투자로 무한한 확장성(Scalability)를 제공한다. 반면에 Gen AI 에이전트는 LM 기반의 의사결정 프로세스를 상세하게 재설계해야 하고, 의사결정 정책 및 제약 조건도 명세화해야 하며, LM 모델 훈련, RAG 구축, 의사결정 체계의 창출 등의 신규 개발이 필요해 초기 개발 원가가 크다. 더욱이, 서비스들의 오케스트레이션 및 코레오그래피 오버헤드와 LM이 추론에서 처리해야 할 토큰 등 운영 비용도 높다. 따라서 에이전트의 복잡성, 적용 규모, 적용 기간이 확대될수록 수익성이 저하된다.

Gen AI 에이전트가 Type 1과 2 Gen AI 시스템에 비해서도 수익 내기가 어려운 이유를 살펴보면 다음과 같다.

에이전트는 사람 승인 없이 행동을 실행하기 때문에 오류(Hallucination)가 발생할 위험이 크다.
에이전트는 반복 횟수나 매 반복 주기에 실행되는 일련의 활동이 비확정적(Nondeterministic)인데, Type 1과 2 시스템은 1회만 실행되며, 실행되는 활동이 확정적이어서 오류나 책임 소재의 추적, 오류의 복구, 보안, 법/규제의 준수, 감리에 유리하고 비용도 적게 든다.
에이전트는 자율적으로 반복 실행하고 종료 기준도 불확실하며, 매 반복 주기에서의 한계비용도 높아 총 실행 원가가 기대할 수 있는 수익에 대비해 과도하게 크다.

비자율적(Non-autonomous) 생성형 AI 애플리케이션

생성형 AI 기반의 에이전트는 예측적/분석적 AI 기반의 에이전트와 대조적으로, 위에 지적했듯이 투자수익률이 마이너스이다. 요즘 AI 에이전트라고 부르는 생성형 AI 애플리케이션들은 대부분 진짜 에이전트가 아닌, 즉 의사결정 및 행동 실행이 완전 자동화되지 않고, 에이전트 생애주기 곳곳에 사람이 개입해야 하는 비자율적 애플리케이션들이다. 예컨대, 구글의 생성형 AI 기반 에이전트의 개발 가이드에서도, 의사결정 및 행동 실행에 반드시 사람이 개입(Human-in-the-Loop)하도록 가이드하고 있다. (Google, Introduction to Agents, 2025. https://share.google/49yJzpGSlgms89LUS )

사람이 에이전트 생애주기상 여러 단계에 UI를 통해 개입하는 비자율적(Non-autonomous ) Gen AI 애플리케이션의 아키텍처는 아래와 같다.

사용자가 프롬프트 조립, 행동 계획, 행동 실행, 정책 검증, 평가, 학습, 에이전트 종료 등 여러 단계에 개입하여, 생성형 AI의 본질적 허점이 유발하는 오류와 위험을 제거하고, 전문가로서 에이전트 산출물의 품질을 보완한다.

비자율적 Gen AI 애플리케이션 이러한 애플리케이션을 그 정의 상 완전 자동화된, 사람의 개입이 없는 자율적 실행 애플리케이션인 “에이전트”라고 부르는 것은, 마케팅을 위한 의도이지, 학문적으로나 상식적으로 적절치 않다. 그냥 “Gen AI 애플리케이션”이라 부르면 무난하다.

이렇게 생성형 AI의 오류나 미흡한 점을 사람이 보정해 주는 애플리케이션은 투자 수익을 시현할 가능성이 있다. 그러나 이러한 애플리케이션은 주로 지식집약적 업무를 자동화하는, 일회 실행에 수분, 수분에 한 건 정도 실행되는, 회사 재무에 미치는 효과가 작은 애플리케이션이다. 구글의 광고 에이전트나 아마존의 상품 추천 에이전트는 회사의 핵심 운영 프로세스를 완전 자동화, 즉 자율화(Autonomous)하는 데 적용했기 때문에 막대한 재무 효과를 발휘하는데, 생성형 AI 기반의 비자율적(Non-autonomous) 애플리케이션은 그런 운영 프로세스의 실행 속도와 횟수를 감당할 수 없기 때문에, 그만큼 재무 효과가 작은 것이다.

향후 기업의 AI 활용 추세 전망

앞으로 기업의 AI 활용 추세를 예측해 보면, 가장 성공적인 ROI를 시현하는 P/A AI 에이전트와 새롭게 ROI를 창출하기 시작한 Gen AI 애플리케이션을 하이브리드로 혼합한 시스템을 추구하게 될 것으로 보인다. P/A AI 에이전트는 기업 매출의 큰 비중을 차지하는 판매, 생산 등 핵심 운영 프로세스에, Gen AI 애플리케이션은 컨텐츠 생성, 마케팅, 고객 지원, 전문 서비스, R&D, SW 개발 등 지식 집약형 업무 영역에 적용함으로써, 전사 차원의 End-to-End 프로세스에 두 유형의 AI 시스템들이 시너지 있게 혼합되어 통합되는 모습을 상상하게 된다.

우리나라 기업의 바람직한 AI 투자 전략

위에서 고찰한 바를 토대로 우리나라의 대부분의 기업들이 추구할 수 있는 바람직한 AI 투자 전략을 생각해 보자.

장기적으로는 매출 비중이 큰 핵심 운영 프로세스에 P/A AI 에이전트를 개발하고, 지식 집약적 업무 분야에 Gen AI 애플리케이션을 개발하여, 이 둘을 시너지 높게 통합하는 걸 목표로 하지만, 해당 기업의 현재 경영 및 IT 성숙도를 감안하여, 단기적으로는 당장 실효 있게 구현 가능한 시스템의 구축을 추진하되, 장기적 시야에서 최종 목표의 달성에 필요한 조건들을 단계적으로 구비해 나아가는 전략이 필요하다.
1차적으로 시도해 볼 수 있는 시스템은 Type 1 Gen AI 애플리케이션, 즉 RAG를 이용한 프롬프팅 시스템이다. 모든 기업 애플리케이션이 그렇듯, 이 애플리케이션도 현업 실무자들이 업무 성과 향상을 위해 간절히 필요로 하는 사용사례를 찾아 구현해야 한다. RAG의 벡터 DB, 정책적 제약조건에 관한 DB에 필요한 데이터의 양과 질을 구비해야 한다. 이런 사전 조건을 구비하는 게 LM 모델을 활용하는 기술보다 더 어렵고 중요하다. 모든 기업 애플리케이션이 그렇듯이, 이 애플리케이션도 서비스 지향 아키텍처(SOA)로 구현해야 장기적으로 쉽게 유지보수 및 확장을 해 나아갈 수 있다. 대표적인 사용사례로는 정보 및 지식의 검색 또는 Q&A, 각종 업무 문서의 작성 또는 요약, 고객 지원 챗봇, SW 코딩의 코파일럿 지원 등이 있다.
동시에, 회사의 핵심 운영 프로세스에 포함된 주요 실시간 의사결정 과업 중 P/A AI를 활용해 모델링하고 최적해를 구하면 경영 성과 개선에 크게 기여할 수 있는 사용사례를 찾아 SOA 애플리케이션으로 구현해 볼 수 있다. 여기서도 의사결정 모델의 파라미터 예측을 위한 기계학습 모델의 훈련, 테스팅보다도 그에 필요한 데이터의 양과 질을 확보하는 것, 또 의사결정 모델링과 최적해를 구하기 위한 경영과학(OR) 모델과 솔루션 알고리즘을 개발하는 것, 현업 전문가가 현실적 상황을 고려하여 최적해를 실천할 구체적인 행동을 결정하는 것이 더 어렵고 중요하다. 대표적인 사용사례로는 마케팅 프로세스에서 고객 이탈 예측(Churn Scoring), 판매 프로세스에서 구매 가능성이 큰 고객의 선정(Lead Scoring), 생산 계획에서 구매 수요량의 예측(Demand Forecast), 금융 대출 프로세스에서 리스크 예측(Risk Scoring), 보험 청약 프로세스에서 사기 탐지(Fraud Detection) 등이 있다.
1차적 애플리케이션의 개발과 활용에 성공한 후, 2차적으로, Type 2 Gen AI 애플리케이션, 즉 MCP, Workflow, A2A를 이용해 프롬프트를 보강하는 시스템을 구축해 볼 수 있다. 여기서도 LM의 프롬프트 추론을 통해 도출할 수 있는 행동 계획을 참고하여 실천할 행동을 구체화하고 실행 책임을 질 현업 전문가의 역할이 가장 중요하다. 주요 사용사례로는 보험 청구 보상 프로세스에서 손해 사정 보고서 작성, IT 서비스 관리에서 발생한 장애의 서술 및 분류, 계약 숭인 프로세스에서 계약서 초안 작성, 의료 서비스에서 진단 및 치료 계획서 작성, 제조업 생산 설비의 유지보수 계획 작성, SI 사업의 제안서 작성 등이 있다.
위에서도 지적했듯이, 한 걸음 더 나아가 실천 행동의 구체화 및 실행까지 자동화하는 Type 3 Gen AI 애플리케이션, 즉 생성형 AI 에이전트는 글로벌 빅테크 기업들도 투자 수익을 시현하지 못하고 있어, 국내 기업 대부분은 아직 시도할 필요가 없는 것으로 보인다. 그러나 구글의 AI 에이전트 개발 가이드에서 권장하듯이, 에이전트 실행 과정에 사람이 개입할 체크포인트들을 설정하여,생성형 AI의 오류나 미흡한 점을 전문가들이 수정, 보완해 주는 비자율적(Non-autonomous) Gen AI 애플리케이션을 추진해 볼 수 있다.
P/A AI 에이전트도 위에서 지적하였듯이 글로벌 빅테크 기업만 경영 성과 창출에 성공하였다. 따라서 국내 대부분의 기업은 이 에이전트 개발을 시도하기 보다는 빅테크에서 성공했던 이유를 이해하고, 그 성공 요인들을 장기적 관점에서 구비해 나아가는 전략을 수립 추진하는 게 바람직해 보인다. 앞에서도 지적했듯이, 구축해 나아가야 할 성공요소들은 경영 전략 수립 프로세스의 선진화, 경영 혁신 프로세스의 체계화, 데이터 기반의 경영 의사결정 관행의 정착, EA, BPM, MDM 등 IT 시스템 기획, 분석, 설계 기법의 고도화, OR, AI 등 분석 모델링 및 솔루션 알고리즘의 활용 역량 강화, SW 요구분석, 객체 설계, SOA 아키텍처 설계, 클라우드 네이티브 애플리케이션 개발 등 SW 엔지니어링 역량의 강화, 관계형 DB, NoSQL DB, DW, Data Lake 등의 설계, 구현 등 데이터 엔지니어링 역량의 강화, 클라우드 도입, 인프라 자동화, 플랫폼 엔지니어링 등 IT 인프라스트럭처의 고도화 등 많은 숙제가 기다리고 있다.