Back to Projects
Next.jsDiffusion ModelsVLMPythonAI
아래는 요청하신 내용을 사내 공유용 Markdown 문서 형태로 정리한 초안입니다. 전사 배포 문서에 바로 사용하거나, Confluence / GitLab Wiki / Notion 등에 옮기기 쉽게 구성했습니다.
전사 사내 AI 사이트 플랫폼 배포 문서
1. 개요 (Overview)
본 문서는 전사 사내 AI 사이트 플랫폼 배포를 위한 기술 구성과 핵심 파이프라인을 설명한다. 해당 플랫폼은 이미지 데이터셋 생성부터 프롬프트 자동 생성, 그리고 경량 학습 구조를 통한 데이터 활용까지를 목표로 한다.
2. 전체 파이프라인 요약
이미지 원본 데이터
↓
[DIT Model]
이미지 데이터셋 생성
↓
[VLM Model]
프롬프트 자동 생성
↓
[Low-Adapter Architecture]
경량 데이터 학습 및 활용
3. DIT Model을 통한 이미지 데이터셋 생성
3.1. 목적
- 사내 AI 학습 및 추론에 사용 가능한 표준화된 이미지 데이터셋 구축
- 캐릭터, 아이콘, UI 에셋 등 게임/서비스 전반에 활용 가능한 이미지 자산 확보
3.2. 사용 모델 (DIT Model)
- Qwen Image Model
- Qwen Image Edit Model 2509
- Gemini 2.0 Flash (API 기반)
3.3. 주요 특징
- 텍스트 → 이미지 (Text-to-Image)
- 이미지 → 이미지 (Image-to-Image / Edit)
- 스타일 유지 및 변형에 강점
- 대규모 데이터셋 자동 생성 가능
4. VLM Model을 통한 프롬프트 생성
4.1. 목적
- 생성된 이미지 데이터셋을 기반으로 프롬프트를 자동으로 추출 및 구조화
- 사람이 직접 작성하던 프롬프트 작업의 자동화 및 표준화
4.2. 적용 방식
-
이미지 입력 → VLM 분석
-
이미지의 다음 요소를 자동 추론:
- 캐릭터/오브젝트 속성
- 스타일
- 포즈
- 색상
- 분위기
-
결과를 문장형 프롬프트 또는 템플릿 형태로 출력
4.3. 기대 효과
- 프롬프트 품질의 일관성 유지
- 신규 데이터셋 확장 시 비용 및 시간 절감
- 추후 재학습 및 파인튜닝에 바로 활용 가능
5. 라이선스 정책 (Licenses)
본 플랫폼에서 사용하는 주요 모델 및 기술은 다음 라이선스를 따른다.
- Apache License 2.0
5.1. Apache 2.0 특징
- 상업적 사용 가능
- 사내 서비스 및 내부 배포 가능
- 수정 및 재배포 허용
- 저작권 고지 및 라이선스 명시 필요
➡️ 사내 전사 사용에 법적 리스크가 낮음
6. 아키텍처: Low-Adapter 기반 데이터 학습
6.1. 개념
- 대형 모델 전체를 재학습하지 않고 Low-Adapter (LoRA / Adapter Layer) 만 학습
- 기존 모델 파라미터는 고정 (Frozen)
6.2. 장점
- GPU 비용 절감
- 학습 속도 향상
- 모델 안정성 유지
- 프로젝트별 Adapter 분리 관리 가능
6.3. 활용 시나리오
- 팀별 스타일 Adapter
- 게임/프로젝트별 Adapter
- 특정 캐릭터/세계관 전용 Adapter
7. 기대 효과 및 확장 방향
7.1. 기대 효과
- 전사 공통 AI 자산 플랫폼 구축
- 이미지 + 프롬프트 + 학습 데이터의 완전한 파이프라인 자동화
- AI 활용 생산성 극대화
7.2. 확장 방향
- 애니메이션 프레임 생성 파이프라인 연동
- 3D / 멀티모달 데이터셋 확장
- 사내 서비스 API 통합