MS, '스프레드시트 LLM' 출시.엑셀 이제 배울필요 없을까?

마이크로소프트가 스프레드시트를 이해하고 처리할 수 있는 혁신적인 AI 모델인 '스프레드시트LLM(SpreadsheetLLM)'을 공개했습니다. 이 모델은 복잡한 스프레드시트 구조를 효과적으로 인코딩하여 대규모 언어 모델의 성능을 최적화하고, 데이터 분석과 기업용 AI 기술의 새로운 지평을 열 것으로 기대됩니다.
min heo's avatar
Jul 17, 2024
MS, '스프레드시트 LLM' 출시.엑셀 이제 배울필요 없을까?

스프레드시트LLM 이해 능력

스프레드시트LLM은 기존 대규모 언어 모델(LLM)의 한계를 극복하고 스프레드시트 데이터를 효과적으로 이해하고 처리할 수 있는 능력을 갖추고 있습니다. 이 모델은 스프레드시트의 복잡한 2차원 구조, 유연한 레이아웃, 다양한 서식 옵션 등을 고려하여 설계되었습니다. 주요 특징으로는 다음과 같은 능력들이 있습니다:

1. 구조적 이해: 스프레드시트LLM은 셀 주소, 값, 형식을 포함하는 직렬화 접근 방식을 사용하여 스프레드시트의 구조를 이해합니다. 이를 통해 모델은 데이터 간의 관계와 레이아웃을 파악할 수 있습니다.
2. 데이터 압축 및 처리: SheetCompressor를 통해 대용량 스프레드시트 데이터를 효율적으로 압축하고 처리할 수 있습니다. 이는 LLM의 토큰 제한 문제를 해결하고 더 큰 규모의 데이터를 다룰 수 있게 합니다.
3. 자연어 질의 응답: 사용자는 자연어로 스프레드시트 데이터에 대해 질문하고 조작할 수 있습니다. 이는 복잡한 수식이나 프로그래밍 언어 대신 일반 영어를 사용하여 데이터 분석을 가능하게 합니다.
4. 데이터 분석 및 추론: 스프레드시트LLM은 단순한 데이터 입력과 분석부터 복잡한 재무 모델링과 의사결정까지 다양한 작업을 수행할 수 있습니다. 이는 기업의 데이터 기반 의사결정 과정을 크게 개선할 수 있습니다.
5. 스프레드시트 생성: 자연어 프롬프트를 기반으로 새로운 스프레드시트를 생성할 수 있는 능력을 갖추고 있습니다. 이는 사용자가 빠르게 데이터 구조를 만들고 분석을 시작할 수 있게 해줍니다.
6. 다운스트림 작업 처리: '스프레드시트 체인(Chain of Spreadsheet)' 방식을 통해 스프레드시트 이해의 다운스트림 작업을 수행할 수 있습니다. 이는 복잡한 스프레드시트 QA 작업에서 검증되었습니다.

이러한 능력들을 통해 스프레드시트LLM은 데이터 분석, 재무 모델링, 의사결정 지원 등 다양한 비즈니스 영역에서 활용될 수 있으며, 기업의 데이터 활용 능력을 크게 향상시킬 것으로 기대됩니다.

혁신적 인코딩 프레임워크

스프레드시트LLM의 핵심 기술인 SheetCompressor는 혁신적인 인코딩 프레임워크로, 스프레드시트를 효과적으로 압축하여 대규모 언어 모델(LLM)이 처리할 수 있도록 합니다. 이 프레임워크는 세 가지 주요 모듈로 구성되어 있습니다:

1. 구조적 앵커 기반 압축: 이 모듈은 스프레드시트 전체에 '구조적 앵커'를 배치하여 LLM이 데이터의 구조를 더 잘 이해할 수 있게 합니다. 또한 멀리 떨어져 있거나 동질적인 행과 열을 제거하여 테이블의 '골격' 버전을 생성합니다. 이를 통해 데이터의 핵심 구조를 유지하면서 크기를 줄일 수 있습니다.
2. 역 인덱스 변환: 이 기술은 빈 셀이 많고 반복적인 값을 가진 스프레드시트의 문제를 해결합니다. 전통적인 행별, 열별 직렬화 대신 JSON 형식의 무손실 역 인덱스 변환을 사용합니다. 이 방법은 비어 있지 않은 셀 텍스트의 사전을 만들고 동일한 텍스트를 가진 주소를 병합하여 토큰 사용을 최적화하면서 데이터 무결성을 유지합니다.
3. 데이터 형식 인식 집계: 이 모듈은 인접한 숫자 셀이 유사한 숫자 형식을 공유하는 경우를 처리합니다. 정확한 숫자 값보다는 셀에서 숫자 형식 문자열과 데이터 유형을 추출합니다. 그런 다음 동일한 형식이나 유형을 가진 인접 셀을 클러스터링하여 과도한 토큰 사용 없이 수치 데이터 분포를 이해할 수 있게 합니다.

이러한 기술을 통해 SheetCompressor는 스프레드시트 인코딩을 위한 토큰 사용량을 96%까지 크게 줄일 수 있습니다. 또한 미세 조정된 LLM과 SheetCompressor를 결합하면 평균 25배의 압축률을 달성하면서도 78.9%의 F1 점수를 기록하여 기존 최고 모델보다 12.3% 향상된 성능을 보여줍니다. 이 혁신적인 인코딩 프레임워크는 대규모 스프레드시트 데이터를 효율적으로 처리할 수 있게 하여, 기업의 데이터 분석 및 의사결정 과정을 크게 개선할 수 있는 잠재력을 가지고 있습니다. 특히 금융, 회계, 데이터 분석 분야에서 큰 영향을 미칠 것으로 예상되며, 복잡한 스프레드시트 작업을 자동화하고 더 나은 인사이트를 제공할 수 있을 것입니다.

미래의 데이터 분석 자동화

스프레드시트LLM의 등장은 데이터 분석 및 관리 분야에 혁명적인 변화를 가져올 것으로 예상됩니다. 이 기술은 기업의 데이터 처리 방식을 크게 개선하고, 분석 과정을 자동화하며, 의사결정을 지원할 것입니다. 주요 영향과 기대효과는 다음과 같습니다:

- 데이터 분석 자동화: 스프레드시트LLM은 복잡한 데이터 세트를 자동으로 분석하고 인사이트를 도출할 수 있습니다. 이는 데이터 분석가의 업무 효율성을 크게 향상시킬 것입니다.
- 자연어 기반 데이터 조작: 사용자는 복잡한 수식이나 프로그래밍 언어 대신 일반 언어로 데이터를 조작하고 질문할 수 있게 됩니다. 이는 데이터 분석을 더 많은 사람들에게 접근 가능하게 만들 것입니다.
- 재무 모델링 및 예측 개선: 금융 분야에서는 더 정확하고 빠른 재무 모델링과 예측이 가능해질 것입니다. 이는 투자 결정과 리스크 관리를 개선할 수 있습니다.
- 데이터 품질 향상: 스프레드시트LLM은 데이터 오류를 자동으로 감지하고 수정할 수 있어, 데이터의 정확성과 신뢰성을 높일 수 있습니다.
- 업무 프로세스 최적화: 반복적인 데이터 입력 및 처리 작업을 자동화하여 업무 효율성을 크게 높일 수 있습니다.
- 의사결정 지원 강화: 복잡한 데이터 세트에서 신속하게 인사이트를 도출하여 더 나은 비즈니스 의사결정을 지원할 수 있습니다.
- 협업 개선: 팀원들 간의 데이터 공유와 해석이 더욱 용이해져 협업 효율성이 향상될 것입니다.
- 새로운 비즈니스 모델 창출: 데이터 분석의 자동화와 고도화는 새로운 비즈니스 모델과 서비스의 출현을 촉진할 수 있습니다.

이러한 변화들은 기업의 데이터 활용 능력을 크게 향상시키고, 데이터 기반 의사결정 문화를 더욱 강화할 것으로 예상됩니다. 스프레드시트LLM은 단순히 기술적 혁신을 넘어 기업의 운영 방식과 의사결정 프로세스를 근본적으로 변화시킬 잠재력을 가지고 있습니다.

Share article

More articles

See more posts

유튜버 평범한사업가