LangChain과 OpenAI API로 문서를 분석하는 방법

서면 자료와 데이터에서 가치 있는 인사이트를 도출하는 과정은 정보에 입각한 선택을 하는 데 필수적입니다. 그럼에도 불구하고 기밀 정보를 처리할 때 개인정보 보호 문제가 발생합니다. OpenAI API와 함께 LangChain을 사용하면 인터넷을 통해 전송하지 않고도 온프레미스 파일을 평가할 수 있습니다.

OpenAI는 로컬 수준에서 정보를 유지하고, 검사를 위해 임베딩 및 벡터화를 활용하며, 주변 환경 내에서 작업을 수행함으로써 이러한 성과를 달성합니다. 이 조직은 모델을 개선하거나 서비스를 향상시키기 위해 API를 통해 얻은 고객이 제출한 데이터를 사용하지 않도록 보장합니다.

환경 설정하기

시스템에 여러 버전의 라이브러리가 설치되어 있을 때 발생할 수 있는 잠재적인 충돌을 방지하려면 새 Python 가상 환경을 만들고 이 환경 내에서 모든 종속성을 격리하는 것이 좋습니다. 이를 위해 다음 단계를 사용할 수 있습니다: 1. 터미널 또는 명령 프롬프트를 엽니다. 2. 가상 환경을 만들려는 디렉터리로 이동합니다. 3. python -m venv `을 입력하고 Enter 키를 눌러 지정된 이름으로 새 가상 환경을 생성합니다. `을 프로젝트에 적합한 이름으로 바꿉니다. 4. ./ /bin/activate`(유닉스 기반 시스템의 경우) 또는 `.\ \Scripts\activate.bat`

 pip install langchain openai tiktoken faiss-cpu pypdf

다양한 라이브러리의 사용 목적에 대한 개요를 제공하기 위해 아래에 자세한 분석이 제시되어 있습니다:

LangChain은 다양한 형태의 텍스트 조작 및 검사를 위한 언어 기반 체인의 생성 및 관리를 용이하게 하도록 설계된 다용도 도구입니다. 이 포괄적인 플랫폼은 문서 가져오기, 텍스트 세분화, 임베딩 생성, 벡터 저장소 관리 등 다양한 기능을 제공합니다.

OpenAI는 사용자가 언어 모델에서 쿼리를 실행하고 결과를 검색할 수 있는 플랫폼으로, 자연어 처리 기능을 용이하게 합니다.

틱토큰은 특정 글에 포함된 텍스트 콘텐츠의 양을 정량화하는 수단으로 사용되며, 상호작용 시 사용된 토큰의 양에 따라 수수료를 부과하는 Open AI API와 통신할 때 토큰 수를 모니터링 및 관리할 수 있습니다.

FAISS를 사용하면 벡터 저장소를 구축하고 유지 관리하여 효율적인 유사성 비교를 통해 임베디드 벡터를 빠르게 검색할 수 있습니다.

PyPDF는 PDF(Portable Document Format) 파일에서 텍스트를 쉽게 추출할 수 있는 Python 라이브러리입니다.주요 기능은 PDF 문서를 로드하고 그 안에 있는 텍스트 콘텐츠를 분리하여 다양한 후속 프로세스에서 활용할 수 있도록 하는 것입니다.

이 글도 확인해 보세요: 프로젝트에 사용할 독특한 곡을 만드는 4가지 무료 AI 음악 생성기

필요한 모든 라이브러리를 설치한 후 작업 공간이 올바르게 구성되었으며 이제 사용할 준비가 되었습니다.

OpenAI API 키 가져오기

OpenAI API가 제공하는 기능을 활용하려면 각 조회에 고유한 API 키를 통합해야 합니다. 이 특정 식별자를 포함하면 API 공급업체가 요청의 진위 여부를 확인하고 사용자가 해당 기능에 액세스하는 데 필요한 권한을 보유하고 있는지 확인할 수 있습니다.

OpenAI API 키를 얻으려면 OpenAI 플랫폼 로 이동하세요.

API 키에 액세스하려면 계정의 오른쪽 상단 모서리로 이동하여 드롭다운 메뉴에서 ‘API 키 보기’를 선택하세요. 이 작업을 수행하면 사용 가능한 모든 키 자격 증명이 포함된 전용 페이지가 표시되어 편리하게 사용할 수 있습니다.

“새 비밀 키 만들기” 버튼을 클릭하여 새 비밀 키를 생성하세요. 그런 다음 생성 프로세스를 진행하기 전에 키에 적절한 이름을 입력할 수 있습니다. 생성된 API 키는 개인정보 보호 문제로 인해 향후 OpenAI 계정을 통해 액세스하지 못할 수 있으므로 안전하게 저장해야 합니다. 비밀키를 분실하거나 잘못 보관한 경우 서비스를 계속 이용하려면 새 비밀키를 생성해야 합니다.

전체 코드베이스는 개발자가 필요에 따라 탐색하고 활용할 수 있는 광범위한 리소스 모음을 제공하는 GitHub 리포지토리를 통해 액세스할 수 있습니다.

필수 라이브러리 가져오기

가상 환경 내에 상주하는 라이브러리가 제공하는 기능을 활용하려면 가져오기 작업을 수행해야 합니다.

 from langchain.document_loaders import PyPDFLoader, TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

LangChain에서 의존성 라이브러리를 가져오는 행위를 통해 LangChain 프레임워크에서 제공하는 특정 기능을 활용할 수 있다는 것을 알게 됩니다.

분석용 문서 로드 중

소프트웨어 내에서 후속 인증 절차를 용이하게 하려면 애플리케이션 프로그래밍 인터페이스(API) 키의 저장소 역할을 할 변수의 인스턴스를 설정하는 것이 좋습니다. 이 일시적인 구조는 이후 신원을 확인하거나 액세스 권한을 제공하는 행위와 함께 코딩 프로세스 전반에 걸쳐 사용되어야 합니다.

 # Hardcoded API key
openai_api_key = "Your API key"

공개용으로 코드를 배포할 때는 API 키와 같은 민감한 정보를 소스 코드에 직접 포함하지 않는 것이 좋습니다.하드코딩된 접근 방식 대신 환경 변수를 활용하면 보다 안전하고 유연한 대안을 얻을 수 있습니다. 이렇게 하면 민감한 데이터를 보호하는 동시에 필요할 때 액세스 자격 증명을 쉽게 관리하고 수정할 수 있습니다.

이 글도 확인해 보세요: 정확한 계산을 위한 10가지 고급 Excel 함수

다음 작업은 문서를 검색하고 처리하는 함수를 개발하는 것입니다. 이 함수는 PDF 또는 일반 텍스트 파일을 로드하는 역할을 담당합니다. 입력이 이러한 기준을 충족하지 못하면 ValueError 예외를 던져야 합니다.

 def load_document(filename):
   if filename.endswith(".pdf"):
       loader = PyPDFLoader(filename)
       documents = loader.load()
   elif filename.endswith(".txt"):
       loader = TextLoader(filename)
       documents = loader.load()
   else:
       raise ValueError("Invalid file type")

문서를 가져오면 CharacterTextSplitter를 생성합니다. 이 텍스트 프로세서는 가져온 파일을 문자 수에 따라 관리하기 쉬운 부분으로 나눕니다.

    text_splitter = CharacterTextSplitter(chunk_size=1000, 
                                         chunk_overlap=30, separator="\n")

   return text_splitter.split_documents(documents=documents)

콘텐츠를 더 작고 응집력 있는 세그먼트로 나누면 이해도와 문맥의 연속성 간에 최적의 균형이 유지되어 언어 처리 및 데이터 추출과 같은 다양한 작업을 쉽게 수행할 수 있습니다.

문서 조회

제출된 문서에서 정보를 추출하기 위해서는 문서 검색 메커니즘과 함께 검색어를 입력으로 받아들이는 방법을 구현해야 합니다. 이 기능은 제공된 검색 시스템을 개방형 인공지능 언어 모델 인스턴스와 함께 활용하여 지정된 질의에 따라 관련 데이터를 검색합니다.

 def query_pdf(query, retriever):
   qa = RetrievalQA.from_chain_type(llm=OpenAI(openai_api_key=openai_api_key),
                                    chain_type="stuff", retriever=retriever)
   result = qa.run(query)
   print(result)

이 함수의 목적은 이전에 구축된 질의응답(QA) 시스템을 사용하여 쿼리를 실행한 후 결과를 표시하는 것입니다.

메인 함수 생성

메인 함수의 주요 목적은 문서의 파일 이름에 대한 사용자 제공 입력을 수락하고, 지정된 문서를 로드하고, 임베딩을 생성하도록 설계된 OpenAIEmbeddings 인스턴스를 생성하고, 이전에 로드된 문서와 생성된 임베딩 모두에서 파생된 벡터 저장소를 구축함으로써 프로그램의 일반적인 진행을 조절하는 것입니다. 그 후, 구축된 벡터 캐시는 파일 형태로 로컬 저장 매체에 저장됩니다.

로컬 파일에서 영구 벡터 저장소를 로드한 후, 사용자가 시스템을 통해 검색 쿼리를 제출할 수 있는 반복 프로세스를 시작합니다. 이 단계에서 기본 함수는 저장된 벡터의 저장소와 함께 각 쿼리를 분석을 위해 `query_pdf` 함수로 전달합니다. 이 주기는 사용자가 세션을 종료하기로 결정하고 ‘exit’ 명령을 입력할 때까지 지속됩니다.

 def main():
   filename = input("Enter the name of the document (.pdf or .txt):\n")
   docs = load_document(filename)
   embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
   vectorstore = FAISS.from_documents(docs, embeddings)
   vectorstore.save_local("faiss_index_constitution")
   persisted_vectorstore = FAISS.load_local("faiss_index_constitution", embeddings)
   query = input("Type in your query (type 'exit' to quit):\n")

   while query != "exit":
       query_pdf(query, persisted_vectorstore.as_retriever())
       query = input("Type in your query (type 'exit' to quit):\n")

임베딩은 개별 단어 사이에 존재하는 의미적 연결을 캡슐화하며, 벡터는 이러한 맥락에서 텍스트 구절을 묘사할 수 있는 매개체 역할을 합니다.

이 글도 확인해 보세요: 슬랙에서 나만의 사용자 지정 슬래시 명령 만들기

본 시스템은 특정 문서 내의 텍스트 콘텐츠로부터 벡터 표현을 생성하기 위해 OpenAIEmbeddings를 사용합니다. 이러한 벡터는 이후 FAISS의 구현을 통해 색인화되어 상관 요소의 신속한 검색 및 비교 평가를 용이하게 합니다. 이러한 기능을 통해 제출된 문서를 철저히 검사할 수 있습니다.

마지막으로, 사용자가 프로그램을 다른 스크립트 내에서 모듈로 가져오지 않고 직접 실행하여 독립적으로 실행하는 경우에 대비하여 `__name__`이 `__main__`과 동일한 구문을 활용하여 주 함수를 호출합니다:

 if __name__ == "__main__":
   main()

이 소프트웨어 프로그램의 현재 구현은 명령줄 도구로 작동합니다. 그러나 Streamlit의 기능을 활용하면 웹 브라우저 내에서 애플리케이션과 상호 작용할 수 있는 그래픽 사용자 인터페이스를 통합할 수 있습니다.

문서 분석 수행

문서 분석을 수행하려면 검사하려는 텍스트를 프로젝트와 동일한 디렉토리에 배치하고 소프트웨어를 실행합니다. 응용 프로그램에서 조사하려는 특정 문서의 제목을 요청합니다. 프로그램에서 처리할 검색어와 함께 전체 이름을 입력하세요.

표시된 이미지는 콘텐츠에 포함된 관련 정보를 추출하고 해석할 목적으로 분석 프로세스를 거친 PDF(Portable Document Format) 파일을 검사하여 얻은 결과를 보여줍니다.

다음 표시는 프로그래밍 코드로 구성된 문서를 검사하여 도출된 결과를 보여줍니다.

원하는 파일에 대한 분석을 수행하려면 해당 파일이 PDF 또는 텍스트 형식이어야 합니다. 문서가 아직 이러한 형식 중 하나가 아닌 경우 온라인 변환 도구를 사용하여 PDF로 변환할 수 있습니다.

대규모 언어 모델 이면의 기술 이해

LangChain은 고급 자연어 처리 기능을 활용하는 애플리케이션의 개발 프로세스를 간소화하여 해당 기능의 근간이 되는 복잡한 세부 사항을 모호하게 만듭니다. 따라서 사용자는 이러한 모델과 관련된 기술적 복잡성을 너무 깊이 파고들지 않고 원하는 결과를 구축하는 데 집중할 수 있습니다. 그럼에도 불구하고 특정 애플리케이션을 구동하는 메커니즘을 완전히 이해하려면 대규모 언어 모델을 관리하는 기술적 토대를 심층적으로 이해하는 것이 필수적입니다.

LangChain과 OpenAI API로 문서를 분석하는 방법

By이지원

환경 설정하기

OpenAI API 키 가져오기

필수 라이브러리 가져오기

분석용 문서 로드 중

문서 조회

메인 함수 생성

문서 분석 수행

대규모 언어 모델 이면의 기술 이해

By 이지원

관련 글

“인공지능이냐, 사람이냐?” AI 탐지 능력에 도전하는 테스트

AI 슬롭이란 무엇이며 어떻게 대처할 수 있나요?

Gemini 1.5 Pro를 무료로 사용하는 방법

이 글도 확인해보세요

웹사이트 콘텐츠가 나도 모르게 차단될 수 있는 5가지 이유

스위치용 휴대용 독으로 바꿨는데 훨씬 나아졌어요.

Google 지도에서 비즈니스를 검토하기 시작했습니다: 여러분도 해야 하는 이유

바이닐을 좋아하지만 Spotify를 고수하는 4가지 주요 이유