AI소식(news)

스테이블 디퓨전 3, 어떤 특징들이 있을까요?

물범쌤 2024. 6. 12. 13:00

 

최근 AI 이미지 생성 기술 분야에서

스테이블 디퓨전(Stable Diffusion)의 최신 버전이 큰 주목을 받고 있습니다.

특히 스테이블 디퓨전 3는 기존 이미지 생성 능력과 더불어

텍스트(문자) 인식 능력이 크게 향상되었으며,

디테일한 이미지 생성도 능숙하게 처리할 수 있는

다중 피사체 프롬프트 처리 능력을 갖추고 있습니다.

 

더 자세한 특징들을 하나하나 알아보도록 하겠습니다.

 

1.선택적 파라미터 

스테이블 디퓨전(SD) 3는 다양한 맞춤형 옵션으로

사용자로 하여금 최소 8억 개에서

최대 80억 개의 이미지 학습 파라미터를 선택적으로 사용할 수 있게 제작 되었습니다.

따라서 사용자의 간단한 스케치부터 정교한 이미지까지 이르는

다양한 요구를 충족시킬 수 있습니다.

 

2.프롬프트 이해도 향상

현재 배포되고 있는 스테이블 디퓨전의 모델들은

'DALL-E' 모델에 비해 프롬프트를 이해하고 따르는 인지수행능력이 매우 떨어집니다.

특히 최근 모델인 DALL-E 3 는 정확한 이미지 캡션을 통해 이미지 학습을 진행시킴으로써

프롬프트를 잘 인지하게 된 것으로 많은 사용자들의 각광을 받게 되었는데요,

스테이블 디퓨전 3도 이와 비슷한 수준의 이해도를 갖출것으로 발표되었습니다.

 

3.필요사양

현재 제시된 성능에 따르면

24GB VRAM짜리 그래픽 카드가 탑재된 PC 기준으로,

최대 성능의 SD3 결과물을 생성할 수 있습니다.

하지만, 공개 후 많은 사람들이 여러가지 최적화를 동원한다면

요구사항이 낮아질 것으로 기대하고 있습니다.

 

*초기의 최적화되지 않은 추론 테스트에서는 

8B 매개변수를 갖춘 가장 큰 SD3 모델이 RTX 4090의 24GB VRAM에 적합하며 ,

50개의 샘플링 단계를 사용할 때 1024x1024 해상도의 이미지를 생성하는 데 34초가 걸린다고 합니다.

 

4.윤리적 문제

AI이미지에서 가장 예민하고 민감한 항목이기도 하지만

정확한 규제의 범위가 명확하지 않은것도 사실입니다.

다만, 최신의 스테이블 디퓨전 모델에서

성적인 이미지(nsfw)가 생성될 수 없게 된 것 처럼

스테이블 디퓨전 3도 동일하게 출시될 것 같다는 여론이 많습니다.

 

 

반응형