솔루션 기술
다음 그림에서는 제안한 대화형 AI 시스템 아키텍처를 보여 줍니다. 음성 신호 또는 텍스트 입력으로 시스템과 상호 작용할 수 있습니다. 음성 입력이 감지되면 Jarvis AIaaS(AI-as-service)가 ASR을 수행하여 Dialog Manager에 대한 텍스트를 생성합니다. 대화 관리자는 대화 상태를 기억하고, 텍스트를 해당 서비스로 라우팅하고, 명령을 이행 엔진에 전달합니다. Jarvis NLP 서비스는 텍스트를 가져와 인텐트와 엔터티를 인식하고 이러한 인텐트와 엔터티 슬롯을 다시 대화 상자 매니저로 출력한 다음 작업을 이행 엔진에 보냅니다. 이행 엔진은 사용자 쿼리에 응답하는 타사 API 또는 SQL 데이터베이스로 구성됩니다. 이행 엔진에서 결과를 수신한 후 대화 상자 관리자는 텍스트를 Jarvis TTS AIaaS로 라우팅하여 최종 사용자에 대한 오디오 응답을 생성합니다. 대화 기록을 보관하고, intents와 nemo 교육 슬롯을 사용해 문장에 주석을 달 수 있습니다. 그러면 NLP 서비스가 시스템과 상호 작용하는 사용자가 많아질수록 성능이 향상됩니다.
하드웨어 요구 사항
이 솔루션은 하나의 DGX Station과 하나의 AFF A220 스토리지 시스템을 사용하여 검증되었습니다. Jarvis는 딥 신경 네트워크 계산을 수행하려면 T4 또는 V100 GPU가 필요합니다.
다음 표에는 솔루션을 테스트하는 데 필요한 하드웨어 구성요소가 나와 있습니다.
하드웨어 | 수량 |
---|---|
T4 또는 V100 GPU |
1 |
NVIDIA DGX 스테이션 |
1 |
소프트웨어 요구 사항
다음 표에는 테스트를 통해 솔루션을 구현하는 데 필요한 소프트웨어 구성요소가 나와 있습니다.
소프트웨어 | 버전 또는 기타 정보 |
---|---|
NetApp ONTAP 데이터 관리 소프트웨어 |
9.6 |
Cisco NX-OS 스위치 펌웨어 |
7.0(3) I6(1) |
NVIDIA DGX OS |
4.0.4 - Ubuntu 18.04 LTS |
NVIDIA Jarvis 프레임워크 |
EA v0.2 |
NVIDIA 니모 |
nvcr.io/nvidia/nemo:v0.10 |
Docker 컨테이너 플랫폼 |
18.06.1-CE[e68fc7a] |