Contents

如何在本地下載並安裝 Llama 2

Meta 在 2017 年夏天發布了 Llama 2。新版本的 Llama 進行了微調,比原始 Llama 模型多了 40% 的標記,上下文長度加倍,並且顯著優於其他可用的開源模型。存取 Llama 2 最快、最簡單的方法是透過線上平台透過 API。但是,如果您想要獲得最佳體驗,最好直接在電腦上安裝並載入 Llama 2。

考慮到這一點,我們開發了一個綜合教程,概述了利用 Text-Generation-WebUI 在個人電腦上下載和運行量化 Llama 2 大語言模型 (LLM) 的過程。

為什麼要在本地安裝 Llama 2

直接運行 Llama 2 可能出於多種因素,例如隱私考慮、客製化需求以及離線功能的需求。然而,如果一個人從事研究、提煉或將 Llama 2 納入其工作中,則使用其 API 可能不合適。使用 Llama 2 等本地人工智慧模型的主要目標是減少對外部人工智慧資源的依賴,同時享受隨時隨地使用人工智慧的靈活性,而不必擔心潛在敏感資訊洩露給企業和其他實體。

為了開始討論 Llama 2 在本地環境中的安裝過程,我向您提供了一個雄辯且詳細的逐步指南,以幫助您成功完成此任務。

步驟 1:安裝 Visual Studio 2019 建置工具

為了簡化流程,我們為 Text-Generation-WebUI 實作了點擊安裝包,用於透過圖形使用者介面與 Llama 2 進行互動。儘管如此,在繼續安裝上述套件之前,您必須取得 Visual Studio 2019 建置工具並安裝必需的元件。

下載:Visual Studio 2019(免費)

請立即下載我們的社群版軟體,以取得該軟體的副本。

⭐ 現在安裝 Visual Studio 2019,然後開啟軟體。開啟後,勾選「使用 C++ 進行桌面開發」方塊並點選安裝。 /bc/images/2-install-desktop-development-with-c.jpg

使用 C++ 的桌面開發安裝完成後,繼續取得 Text-Generation-WebUI 一鍵安裝程式以獲得無縫體驗。

步驟 2:安裝 Text-Generation-WebUI

Text-Generation-WebUI 一鍵安裝程式是一個腳本,它透過自動化建立必要的目錄並配置 Conda 環境以及執行人工智慧模型的所有先決條件。

若要取得腳本,您可以透過點擊「代碼」然後選擇「下載 ZIP」來下載方便的一鍵安裝程式。

下載:Text-Generation-WebUI 安裝程式(免費)

下載 ZIP 檔案後,您可以選擇將其解壓縮並將其內容保存在您選擇的目錄中。為此,只需存取包含壓縮文件的資料夾來提取壓縮文件,然後您就可以繼續隨意瀏覽新建立的資料夾。

⭐ 在資料夾中,向下捲動並尋找適合​​您作業系統的啟動程序。透過雙擊適當的腳本來運行程式。

請為您的軟體應用程式選擇合適的作業系統和平台。如果您使用 Windows 作為作業系統,請依照下列步驟使用批次檔設定您的軟體:1.開啟檔案總管並導航至專案所在的目錄。2.右鍵單擊資料夾的空白區域,然後從上下文選單中選擇“新建”。3.選擇「所有任務」>「批次檔」以建立新的批次檔。或者,您可以按 Ctrl + Shift + B 或右鍵單擊並從上下文選單中選擇“新批次檔”。4。預設文字編輯器將開啟一個空白文檔。將提供的程式碼片段複製並貼上到文件中。5.按 Ctrl + S 或選擇“文件”儲存文件

⭐對於MacOS,選擇start_macos shell scrip

⭐ 對於 Linux,start_linux shell 腳本。 /bc/images/4-select-operating-system.jpg

可能會顯示您的防毒軟體已偵測到潛在惡意活動的指示,但這不應引起關注,因為這只是執行批次檔或腳本導致的誤報。要繼續操作,請按一下“仍然運行”以繞過任何潛在的安全問題並繼續該過程。

⭐ 終端機將開啟並開始設定。早些時候,安裝程式將暫停並詢問您正在使用什麼 GPU。選擇電腦上安裝的適當類型的 GPU,然後按 Enter 鍵。對於沒有專用顯示卡的,選擇無(我想以CPU模式運行模型)。請記住,與使用專用 GPU 運行模型相比,在 CPU 模式下運行要慢得多。 /bc/images/5-select-gpu-settings.jpg

⭐ 設定完成後,您現在可以在本機啟動 Text-Generation-WebUI。您可以透過開啟您喜歡的網頁瀏覽器並輸入 URL 上提供的 IP 位址來完成此操作。 /bc/images/6-launch-text-generation-webui.jpg

⭐ WebUI 現已可供使用。 /bc/images/7-text-generation-webui-view.jpg

儘管該軟體充當模型載入器,但它需要獲取 Llama 2 才能啟動其功能。

步驟 3:下載 Llama 2 模型

選擇 Llama 2 迭代時,考慮幾個因素很重要。這些可能包括參數、量化、硬體優化、尺寸和預期用途,所有這些都可以從模型的名稱中看出。

用於訓練目的的參數的大小可以被視為參數。一般來說,該參數的值越大,模型就越有能力,儘管這種增加可能會以犧牲效率為代價。

標準和聊天。聊天變體經過專門微調,可與聊天機器人等對話代理一起使用,而標準版本則作為預設選項。

優化硬體以高效執行機器學習模型的過程可以歸類為硬體最佳化。它涉及確定哪種特定類型的硬體平台將為特定模型提供最佳性能。例如,GPT-Q 經過設計和最佳化,可在專用圖形處理單元 (GPU) 上高效運行,而 GGML 可在中央處理單元 (CPU) 上高效運行。這種差異凸顯了根據每個機器學習模型的獨特要求選擇適當的硬體配置的重要性,以實現所需的效能和效率等級。

量化是指在推理過程中減少機器學習模型中分配給權重和激活的值的範圍或級別的過程。為了高效計算而進行的量化最佳化涉及設定特定的精度閾值,例如 q4,它表示權重和激活值的特定細節等級或粒度。

本文中的術語「尺寸」是指特定模型的尺寸或比例,可以以其物理測量值或其他相關測量單位來表達。

請注意,某些模型的結構可能不同,並且可能不會呈現相同的資料表示格式。儘管如此,這種命名法在

/bc/images/huggingface-model-naming-convention-1.jpg

目前實例可以被描述為中等比例的 Llama 2 架構,它已經使用 130 億個參數進行了訓練,並透過使用專用中央處理單元 (CPU) 專門針對會話推理進行了自訂。

對於使用專用 GPU 的個人,我們建議選擇 GPT-3 模型 (GPT-3 Q)。另一方面,依賴 CPU 的使用者應該選擇 GGML。如果您喜歡以類似於 ChatGPT 的對話方式與 AI 交互,請考慮選擇「聊天」選項。但是,如果您希望探索人工智慧的全部功能,請使用標準模型。在設定方面,請注意,更廣泛的模型通常會產生更好的結果,但可能會導致效率降低。就我個人而言,我建議從7B型號配置入手。關於量化,重要的是要注意「q4」設定僅用於推理目的,而不是用於訓練或最佳化。

下載:GGML(免費)

下載:GPTQ(免費)

在使用 Llama 2 的特定版本的情況下,請繼續購買滿足您需求的所需型號。

鑑於我目前作為超級本用戶的配置,我打算採用廣義遊戲模型(GG

/bc/images/8-download-llama-2-model.jpg

下載過程完成後,請確保將上述模型傳輸到“text-Generation-webui-main”目錄,該目錄位於“models”資料夾中。

/bc/images/9-place-model-to-model-folder.jpg

現在模型已下載並儲存在指定的「模型」目錄中,必須繼續配置載入所述模型所需的元件。

步驟 4:設定文字產生-WebUI

現在,讓我們開始配置階段。

為了在您的作業系統上開始執行 Text-Generation-WebUI,請執行前面步驟中概述的相應啟動命令。

請不要在本平台上使用髒話或粗俗語言。讓我們在溝通中保持專業的語氣。

⭐ 現在點擊模型載入器的下拉式選單,對於使用 GTPQ 模型的使用者選擇 AutoGPTQ,對於使用 GGML 模型的使用者選擇 ctransformers。最後,點擊“載入”載入模型。 /bc/images/10-select-model-loader.jpg

⭐ 要使用模型,請開啟「聊天」標籤並開始測試模型。 /bc/images/12-testing-llama-2-locally.jpg

恭喜,您已在本機上成功安裝 Llama2!

嘗試其他法學碩士

現在您已經獲得了透過在個人電腦上使用 Text-Generation-WebUI 來執行 Llama 2 的能力,據我所知,您可以類似地操作 Llama 之外的其他語言模型化身。為此,請記住識別這些化身時使用的術語,並注意只有那些數值精度較低的化身(通常稱為“q4”)才能在標準計算設備上使用。在 HuggingFace 的龐大儲存庫中可以找到經過此量化過程的大量模型。如果您希望進一步深入研究替代化身領域,在上述程式庫中搜尋 TheBloke 將產生大量選項,其中