여름에 Meta는 라마 2라고 불리는 라마 언어 모델의 업데이트된 반복을 소개했습니다. 이 향상된 변형은 이전 버전에 비해 상당한 양의 추가 토큰을 통합하여 개선되었으며, 언어 능력을 증폭시키는 동시에 공개적으로 액세스 가능한 다양한 대안이 보여주는 성능을 능가합니다. 최종 사용자는 인터넷 기반 플랫폼을 통해 제공되는 애플리케이션 프로그래밍 인터페이스(API)를 사용하여 이 고급 버전의 라마 2를 쉽게 얻을 수 있습니다. 그럼에도 불구하고 최적의 기능을 원하는 사용자는 개인용 컴퓨터에 기본적으로 라마 2를 설치하여 로드하는 것이 좋습니다.
이러한 점을 고려하여 개인용 컴퓨터에서 압축된 라마 2 대형 언어 모델을 다운로드하고 실행하기 위해 텍스트 생성 웹UI를 활용하는 프로세스를 설명하는 포괄적인 튜토리얼을 고안했습니다.
로컬에 라마 2를 설치하는 이유
라마 2를 직접 실행하는 이유는 개인 정보 보호 고려 사항, 개인화된 구성 옵션, 오프라인 환경에서 작동할 수 있는 기능 등 다양한 요인에 따라 달라질 수 있습니다. 그러나 Llama 2를 연구, 개선 또는 통합하려는 목적이 있다면 API를 활용하는 것이 목적에 부합하지 않을 수 있습니다. 자체 컴퓨터에서 LLM을 호스팅하는 것의 주요 이점은 외부 인공지능 리소스에 대한 의존도를 줄이면서 기업 및 기타 기관에 민감한 정보가 노출될 가능성에 대한 걱정 없이 언제 어디서나 유연하게 인공지능을 사용할 수 있다는 점입니다.
로컬 머신에 Llama 2의 설치 프로세스를 시작하려면 이 포괄적인 단계별 사용 설명서를 성실히 따르세요.
1단계: Visual Studio 2019 빌드 도구 설치
프로세스를 간소화하기 위해 그래픽 사용자 인터페이스로 Llama 2를 작동하는 데 사용되는 Text-Generation-WebUI를 원클릭으로 설치하도록 선택했습니다. 이 인스톨러를 성공적으로 실행하려면 Visual Studio 2019 빌드 도구를 다운로드하고 필요한 리소스를 설치한 후 진행해야 한다는 점에 유의하시기 바랍니다.
다운로드: Visual Studio 2019 (무료)
커뮤니티 버전 소프트웨어는 웹사이트에서 다운로드하여 무료로 받으실 수 있습니다.
⭐ 이제 Visual Studio 2019를 설치한 다음 소프트웨어를 엽니다. 소프트웨어가 열리면 C++로 데스크톱 개발 상자를 선택하고 설치를 누르세요.
C++로 데스크톱 개발 설치가 완료되었으면 원활한 환경을 위해 텍스트 생성 웹UI 원클릭 설치 프로그램을 다운로드하세요.
2단계: 텍스트-제너레이션-웹UI 설치
텍스트-제너레이션-웹UI 원클릭 인스톨러를 활용하면 필요한 디렉터리를 생성하고 Conda 환경을 설정하는 프로세스와 AI 모델 운영을 위한 모든 전제 조건을 단 한 번의 클릭으로 자동화하여 원활하게 수행할 수 있습니다.
스크립트를 설치하려면 메뉴에서 “코드”를 선택한 다음 “ZIP 다운로드”를 선택하면 미리 컴파일된 버전을 얻을 수 있습니다. 또는 기술적인 숙련도가 있는 경우 제공된 소스 코드를 사용하여 직접 스크립트를 빌드할 수 있습니다.
다운로드: 텍스트 생성 웹UI 설치 프로그램 (무료)
ZIP 아카이브를 다운로드한 후에는 압축을 풀고 원하는 디렉터리에 저장하는 것이 좋습니다. 이렇게 하려면 장치에서 저장된 ZIP 파일을 찾은 다음 안내에 따라 내용을 압축 해제하면 됩니다. 이렇게 하면 원본 아카이브의 모든 파일이 포함된 새 폴더가 생성됩니다. 그런 다음 원하는 파일 탐색기나 탐색 애플리케이션을 사용하여 새로 생성된 폴더를 열면 해당 파일에 액세스할 수 있습니다.
지정된 디렉토리 내에서 특정 운영 체제와 관련된 섹션으로 이동하여 시작 소프트웨어를 찾습니다. 프로세스를 시작하려면 포인팅 장치를 사용하여 지정된 스크립트를 두 번 클릭하기만 하면 됩니다.
운영 체제가 Windows인 경우 스크립트 또는 구성 파일에서 “start\_windows” 명령을 사용하여 실행할 배치 파일을 선택합니다.
macOS에서 스크립트를 시작하려면 셸 환경 내에서 “start\_macos” 명령을 선택합니다.
⭐ Linux의 경우, start_linux 셸 스크립트.
문제의 개인은 자신에게 할당된 모든 작업과 프로젝트에서 탁월한 성과를 거둔 것으로 보아 동료보다 훨씬 높은 수준의 전문성을 보유한 것으로 보입니다. 그럼에도 불구하고 겸손함을 잃지 않고 다른 사람들로부터 기꺼이 배우려는 자세를 유지하며, 자신을 더 발전시키기 위해 종종 숙련도가 낮은 동료에게 피드백과 조언을 구합니다. 기술 및 비기술 팀원 모두와 효과적으로 소통할 수 있는 능력 또한 주목할 만한데, 이는 그룹 내에서 효율적인 협업과 문제 해결을 가능하게 하기 때문입니다.
주어진 문장에 대한 허용 가능한 대안은 다음과 같을 수 있습니다: 배치 파일 또는 스크립트를 실행하려고 할 때 바이러스 백신 소프트웨어에서 경고 알림을 생성할 수 있습니다. 계속 진행하려면 바이러스 백신 시스템에서 오탐 결과가 표시되더라도 ‘실행’ 옵션을 클릭하세요.
⭐ 터미널이 열리고 설정이 시작됩니다. 처음에는 설정이 일시 중지되고 사용 중인 GPU를 묻는 메시지가 표시됩니다. 컴퓨터에 설치된 적절한 유형의 GPU를 선택하고 Enter 키를 누릅니다. 전용 그래픽 카드가 없는 경우 없음(CPU 모드에서 모델을 실행하고 싶습니다)을 선택합니다. CPU 모드에서 실행하면 전용 GPU로 모델을 실행할 때보다 훨씬 느리다는 점에 유의하세요.
⭐ 설정이 완료되면 이제 로컬에서 Text-Generation-WebUI를 시작할 수 있습니다. 원하는 웹 브라우저를 열고 URL에 제공된 IP 주소를 입력하면 됩니다.
⭐ 이제 WebUI를 사용할 준비가 되었습니다.
그럼에도 불구하고 이 소프트웨어는 모델 로더로만 사용됩니다. 이를 활용하려면 먼저 모델 로딩 기능의 기반이 될 Llama 2를 다운로드하여 설치해야 합니다.
3단계: Llama 2 모델 다운로드
Llama 2의 인스턴스를 선택할 때는 파라미터, 정량화, 하드웨어 최적화, 치수 및 애플리케이션 등 여러 요소를 고려해야 합니다. 이 데이터는 모델의 명명법으로 표시됩니다.
매개변수 수는 모델 용량의 크기를 나타내며, 매개변수 수가 많을수록 다양성과 기능이 향상됩니다. 그러나 이러한 기능 확장은 계산 요구 사항의 증가로 인한 효율성 저하를 동반하는 경우가 많습니다.
GPT-3 모델은 표준 모드와 채팅 모드의 두 가지 모드로 작동할 수 있습니다. 채팅 모드는 ChatGPT와 같은 챗봇으로 사용하기 위해 특별히 설계된 반면, 표준 모드는 기본 옵션으로 사용됩니다.
하드웨어 최적화는 특정 머신러닝 모델을 효율적으로 실행하기 위한 적절한 하드웨어를 선택하는 것과 관련이 있습니다. 특히 GPT-3는 전용 그래픽 처리 장치(GPU)를 활용하는 구성과 중앙 처리 장치(CPU)에서 효과적으로 작동할 수 있는 구성의 두 가지로 설계되었습니다. “GPTQ”로 표시되는 전자의 구성은 GPU의 계산 능력을 활용하여 언어 모델과 관련된 처리 작업을 가속화합니다. 반면에 “GGML”이라고 하는 후자의 구성은 특수 하드웨어 없이도 CPU에서 원활하게 작동하도록 최적화되었습니다.
정량화는 특정 머신러닝 모델 내의 가중치 및 활성화와 관련된 정확도 또는 정밀도 수준을 의미합니다. 추론의 경우, 양자화 수준을 Q4로 설정하면 계산 효율성과 모델 예측의 충분한 정확도 유지 간에 최적의 균형을 맞출 수 있는 것으로 나타났습니다.
특정 모델의 치수 또는 규모는 ‘크기’로 표시됩니다.
특정 구성은 다양할 수 있고 모든 인스턴스에서 특정 측면이 나타나지 않을 수 있지만, HuggingFace 모델 저장소에는 일반적인 형식이 존재합니다. 데이터를 구성하는 데 유용하기 때문에 이러한 규칙을 이해하는 것이 중요합니다.
본 인스턴스는 대화 추론 작업을 용이하게 하기 위해 특별히 조정된 총 130억 개의 파라미터를 활용하여 학습되고 이 목적을 위해 설계된 특수 중앙 처리 장치(CPU)가 장착된 적당한 비율의 라마 2 아키텍처로 분류될 수 있습니다.
전용 GPU에서 사용할 모델을 선택할 때는 GPT-3 모델을 선택하세요. CPU를 사용하는 경우 GGML을 권장합니다. ChatGPT와 대화하는 것과 유사한 대화형 환경을 원한다면 “채팅”을 선택하고, 그렇지 않은 경우 표준 옵션을 선택하여 모델의 모든 기능을 활용하세요. 매개변수 크기가 클수록 일반적으로 더 나은 결과를 얻을 수 있지만 성능에 부정적인 영향을 미칠 수 있습니다. 이러한 장단점을 고려할 때 7B 모델로 시작하는 것이 좋습니다. 양자화와 관련해서는 추론 목적으로만 q4 모드를 사용하십시오.
다운로드: GGML (무료)
다운로드: GPTQ (무료)
어떤 버전의 Llama 2가 적합한지 결정한 후 데이터베이스에서 원하는 모델을 자유롭게 구할 수 있습니다.
울트라북을 사용하고 있기 때문에 대화형 상호작용에 맞게 세심하게 조정된 GGML 모델, 즉 ‘llama-2-7b-chat-ggmlv3.q4\_K\_S.bin’을 사용하기로 선택했습니다.
다운로드 프로세스가 완료되면 ‘텍스트 생성-위부이 메인 > 모델’로 지정된 디렉터리 내에 모델을 배치합니다.
이제 모델을 획득하고 지정된 “모델” 디렉터리 내에 배치했으면 모델 로더에 대한 구성을 설정해야 합니다.
4단계: 텍스트 생성 웹UI 구성
구성 단계의 시작을 시작할까요?
텍스트 생성 웹 사용자 인터페이스에 다시 한 번 액세스하려면 이전 단계에서 설명한 대로 운영 체제에서 지정된 시작 파일을 실행하여 실행을 시작하세요.
그래픽 사용자 인터페이스 위에 있는 “모델” 탭으로 이동하세요. 그런 다음 특정 모델을 선택하기 위한 드롭다운 메뉴와 연결된 새로 고침 버튼을 클릭하세요. 그런 다음 목록의 사용 가능한 옵션 중에서 원하는 모델을 선택하세요.
⭐ 이제 모델 로더의 드롭다운 메뉴를 클릭하고 GTPQ 모델을 사용하는 경우 AutoGPTQ를, GGML 모델을 사용하는 경우 ctransformers를 선택합니다. 마지막으로 로드를 클릭하여 모델을 로드합니다.
⭐ 모델을 사용하려면 Chat 탭을 열고 모델 테스트를 시작하세요.
로컬 컴퓨터에 Llama2를 성공적으로 설치하신 것을 진심으로 축하드립니다!
다른 LLM 사용해보기
텍스트 생성 웹UI를 활용하여 기기에서 직접 Llama 2를 실행하면서 얻은 지식으로, 여러분은 Llama뿐만 아니라 다양한 언어 모델 아키텍처를 실행할 수 있는 능력을 갖추게 되었습니다. 이러한 모델에 대해 확립된 명명 규칙을 준수하는 동시에 4정밀도 양자화된 모델만 표준 컴퓨팅 장치에 효과적으로 로드할 수 있다는 점에 유의하는 것이 중요합니다. 허깅페이스의 방대한 모델 컬렉션에서 다양한 양자화된 LLM을 찾을 수 있습니다. 탐색 범위를 더욱 넓히려면 허깅페이스의 저장소에서 더블룩을 검색하면 다양한 모델이 기다리고 있습니다.
이 글에서는 다양한 출처에서 데이터를 수집하기 위해 정성적 방법과 정량적 방법을 모두 사용하여 소셜 미디어가 젊은이들의 정신 건강과 웰빙에 미치는 영향을 조사한 연구에 대해 설명합니다. 연구 결과에 따르면 사이버 괴롭힘, 비교염 등 소셜 미디어 사용과 관련된 부정적인 측면이 있는 반면, 사회적 연결성 및 지원 네트워크에 대한 접근성 증가와 같은 긍정적인 결과도 있습니다. 또한, 연구 결과에 따르면 적당한 소셜 미디어 사용은 젊은 사용자에게는 유익할 수 있지만 과도한 사용은 해로운 영향을 미칠 수 있습니다. 그러나 소셜 미디어와 정신 건강의 관계는 복잡하고 다면적이며 성격 특성 및 기타 요인의 개인차에 영향을 받는다는 점에 유의하는 것이 중요합니다. 따라서 향후 연구에서는 이 주제를 심도 있게 탐구하여