티스토리 뷰
RAG 시스템의 핵심은 Retriever가 질문과 유사도 높은 문서를 가져온 것을 활용해 LLM이 최신화되고 정확한 응답을 생성하도록 하는 것이다. 기본 방식으로도 이전보다는 뛰어난 응답을 생성해낼 수 있지만 더나아가 LLM의 특성을 이용해 더 높은 품질의 응답을 이끌어 낼 수 있다. LLM은 유사한 문서가 많다고 응답 품질이 무작정 높아지는 것이 아니라 유사한 문서가 상위에 있어야 더 높은 품질의 응답을 생성해준다. 즉, 검색된 유사도 높은 문서에 더 정교한 기준으로 다시 평가해 관련성 높은 문서를 위로 올리거나 관련 없는 문서를 제외함으로써 품질을 높일 수 있다. 이때, 더 높은 유사도의 문서를 검색할 수 있게 도와주는 추가적인 방법이 Re-rank이다.
Re-rank는 말 그대로 순위를 다시 매기는 것이다. 기존의 Retriever가 가져온 문서는 단순히 유사도를 기준으로 나열되어 있지만, Re-rank는 더 정교한 기준으로 다시 평가해 가장 관련성 높은 문서를 위로 올리는 작업을 수행한다.
Why Re-rank?
기본 Retriever의 한계
대부분의 Retriever는 벡터화된 질문과 저장된 문서간의 단순 유사도만을 계산해 검색하게된다. 유사도가 높다고 무조건 질문과 가장 유사한 문서라는 것이 아니며, 또한 유사한 정보가 아닐 수도 있다.
LLM 응답 품질 향상
앞서 이야기 했듯, LLM은 유사한 문서가 상위에 위치해 있어야 더 높은 품질의 응답을 생성해 준다. 반대로 말하면, 유사도는 높게 계산되었지만 잘못된 문서가 상위에 있으면 부정확한 답을 생성할 수 있다.
불필요한 문서 제거
유사도가 높다고 무조건 질문과 유사한 정보라는 것을 보장할 수 없다. 질문과 유사하지 않은 문서가 포함되면 LLM의 응답 품질이 떨어질 수 밖에 없다. Re-ranker는 쓸모 없는 문서를 하위에 위치시키거나 필터링할 수 있다.
아래 데이터는 공약을 임베딩해 저장해 놓은 벡터저장소에서 기본 Retriever로 "부동산 공약"과 유사한 문서 5개를 검색한 결과이다. 이 문서들은 이 순서 그대로 프롬프트로 만들어져 LLM에게 전달되게 된다.
"content": "<집은 머무는 곳이지, 묶이는 곳이 아닙니다> 부동산공약 생애주기 맞춤형 주택 세금 감면 청년·신혼·다자녀·노년 단계별로 취득세·양도세 감면 확대 작은 집 → 큰 집 다시 작은 집'으로 주거 이동을 유연하게 설계 실수요자의 주거 부담은 줄이고, 비정상 거래와 자산 양극화는 차단 59형 집중 공급 & 지방 미분양 해소 재건축·재개발에 59㎡ 공급 집중해 분양 물량 확대, 분담금 부담 완화 지방 미분양 아파트에 민간임대 등록 허용, 양도세·취득세 감면 적용 저출산 대응 위한 다자녀 특별공급, 분양가 상한제, 고밀 개발 활성화 추진 지역주택조합 폐지 & 공공 안심공급 전환 허위광고·분담금 폭탄·조합비리 등 피해양산의 지역주택조합 전면 폐지 대신 지자체 주도로 공공이 시행하는 '안심주택조합' 제도 도입 추진 ● 조합형 투기·불법 난립 방지, 공급의 질과 예측력 모두 확보 압도적새로움 이준석 개혁신당",
"content": "서울 1 재건축 활성화를 위한 파격적 용적률 인센티브 노원, 도봉, 강북 등 강북 지역 중심으로 용적률 대폭 상향하여 주민들 분담금 완화 재건축 패스트트랙 제도 도입으로 신속하게 주택 물량 공급 2 권역별 핵심 혁신성장 거점 마련 잠실 : 문화 랜드마크 형성 및 스포츠·MICE 거점 육성 용산 : 글로벌 도시경쟁력 강화 위한 국제업무지구 개발 지원 여의도 : 금융허브를 중심으로 서남권 경제거점벨트 조성 상암 DMC : 미래산업 고용기반 구축 상계·창동 : 문화예술과 미래 신산업의 거점 육성 3 59형을 대폭 공급하여 신혼/청년/노년 가구에 범용적 대응 59m2형 주택 고밀도 개발로 대거 공급하여 광화문/여의도/삼성 등 직장인에 수요응답형 공급 활성화 ||||||",
"content": "<지방이 살아야, 대한민국이 산다!> 법인세 자치권 확대 핵심 공약 국세 중심의 세수 구조 개편 지방간 기업 유치 경쟁 촉진 국세인 법인세의 30% 인하 • 감면분 전액을 지방세인 법인지방소득세로 전환 지자체가 최종 지방세율 결정 미국처럼 지자체별 법인세율 자율화 기업 유치 위한 차별화 전략 가능 • 지방 균형 발전과 일자리 창출 도모 세수 이전 효과 및 형평성 확보 무리한 감세 방지 장치 마련 부가세 기반의 지방소비세 재배분 확대 가능 법인의 소재지 안분 기준으로 paper company 방지 • 첨단산업 반영한 기준 개편 예정 •지방세 변경 시 2년 유예 시행 예고제 도입 기업의 예측 가능성 확보 지방교부금 조정으로 지방 책임 재정 달성 \"법인세 자치권으로 지방의 경쟁력을 키우겠습니다. 지방이 먼저 살아야 나라가 산다!\" 압도적새로움 이준석 개혁신당 page 1",
"content": "2 재건축·재개발 시 59형 집중 공급을 위한 인센티브 부여 용적률 대폭 상향으로 사업성 제고를 통한 공급 확대 필요 방3개/화장실 2개의 형태로 공급이 가능하고 신혼부부, 1~2자녀 가구 등 다용도로 활용 가능 한 59형을 집중 공급할 경우 파격적 인센티브 부여 3 민간임대등록제도 조건부 부활 지방 미분양 아파트 한정 민간임대 등록 허용 및 세제 혜택 제공 갭투자 방식의 투자 방지 위해 월세 방식 한정 허용 지방 미분양 아파트 한정, 다주택자 추가 주택 구매 규제 미적용 4 지역주택조합 폐지 지역주택조합제도 폐지 공공성 보강한 안심주택조합(가칭) 제도 추진",
"content": "<압수수색없는 도시, 데이터와 기업이 몰립니다!> 데이터특구 제도 도입 공약 글로벌 디지털 허브, ‘데이터특구’로 실현 압수수색 제한으로 민감 데이터의 국제적 신뢰성 보장 ● 국내외 관련법과 국제협약에 기반한 안전장치 마련으로 독립성과 중립성 구축 글로벌 AI 클라우드 기업 유치 통한 수출형 인프라 산업으로 발전 인허가 간소화·세제 혜택 등 글로벌 기업 유치 풀패키지 \" 전력, 용수, 토지 등 규제 일괄처리하는 원스톱 인허가시스템 구축 법인세 등 세제 인센티브 및 저렴한 전력 요금 정책 허용 IDC 운영 시 발생한 폐열을 도시기능과 결합해 재활용 친환경 도시 전환 여유로운 전력과 물리적 인프라 조건을 갖춘 부산에서부터 시작합니다!\" 압도적새로움 이준석 개혁신당",
하지만, 이 중에 3번째와 5번째의 문서는 질문인 "부동산 공약"과 직접적으로 관련이 있는 문서라고 보기에는 힘들다. 이 문서 그대로 사용된다면 높은 품질의 LLM의 응답을 기대하기 어렵다. 여기에 모델 기반의 Re-ranker(`BAAI/bge-reranker-base`)를 적용한 결과는 다음과 같다.
"content": "<집은 머무는 곳이지, 묶이는 곳이 아닙니다> 부동산공약 생애주기 맞춤형 주택 세금 감면 청년·신혼·다자녀·노년 단계별로 취득세·양도세 감면 확대 작은 집 → 큰 집 다시 작은 집'으로 주거 이동을 유연하게 설계 실수요자의 주거 부담은 줄이고, 비정상 거래와 자산 양극화는 차단 59형 집중 공급 & 지방 미분양 해소 재건축·재개발에 59㎡ 공급 집중해 분양 물량 확대, 분담금 부담 완화 지방 미분양 아파트에 민간임대 등록 허용, 양도세·취득세 감면 적용 저출산 대응 위한 다자녀 특별공급, 분양가 상한제, 고밀 개발 활성화 추진 지역주택조합 폐지 & 공공 안심공급 전환 허위광고·분담금 폭탄·조합비리 등 피해양산의 지역주택조합 전면 폐지 대신 지자체 주도로 공공이 시행하는 '안심주택조합' 제도 도입 추진 ● 조합형 투기·불법 난립 방지, 공급의 질과 예측력 모두 확보 압도적새로움 이준석 개혁신당",
"content": "2 재건축·재개발 시 59형 집중 공급을 위한 인센티브 부여 용적률 대폭 상향으로 사업성 제고를 통한 공급 확대 필요 방3개/화장실 2개의 형태로 공급이 가능하고 신혼부부, 1~2자녀 가구 등 다용도로 활용 가능 한 59형을 집중 공급할 경우 파격적 인센티브 부여 3 민간임대등록제도 조건부 부활 지방 미분양 아파트 한정 민간임대 등록 허용 및 세제 혜택 제공 갭투자 방식의 투자 방지 위해 월세 방식 한정 허용 지방 미분양 아파트 한정, 다주택자 추가 주택 구매 규제 미적용 4 지역주택조합 폐지 지역주택조합제도 폐지 공공성 보강한 안심주택조합(가칭) 제도 추진",
"content": "실수요자 중심의 생애맞춤형 부동산 정책을 실시하겠습니다. 1 생애주기 맞춤형 주택세금 감면제도 실시 사회초년생: 생애최초 주택 취득 시 취득세 50% 감면 신혼부부 : 결혼 7년 이내, 59m² 이하 주택 취득 시 취득세 감면 + 양도소득세 감면 자녀양육기 : 자녀 2명 이상→ 양도세 비과세 기준 상향(20억) 노인가구 : 만 65세 이상 고령자 주택 매도 시 양도세 장기보유특별공제 확대 == 11 11",
"content": "<내집으로 거주도 하고, 연금도 받고 1석 2조!> 내집연금 플러스 공약 주택연금, 가입은 쉽게, 혜택은 더 많이! 가입 기준 완화 1주택 누구나!, 다주택자 최대 20억원 까지 가능 • 실버타운 이주, 소형주택 갈아타기 시에도 연금 수령이 가능하도록 ● 대출한도 기준 10억으로 상향, 자녀 결혼 등 목돈 인출 사유 확대! 부모의 소비가 자녀의 혜택으로 부모의 주택연금 사용액을 자녀가 연말정산 소득공제로 활용! 주택연금 활용 집은 종부세, 재산세 산정 배제하여 세제 혜택 확대 주택연금으로 자녀 부양 부담 덜고, 국민연금과 듀얼연금으로 노후보장! \"주택연금으로 노후는 든든하게, 소비는 당당하게!\" 새로운 대통령 4이준석",
"content": "3 주택연금 가입 요건 완화 및 대출한도 확대 주택연금 가입 기준을 1주택자는 폐지, 다주택자는 20억원까지 허용 우대형 상품 주택가격 확대(2억→ 3억) 대출한도를 기존 6억에서 10억으로 확대(담보 50%) 자택을 유지하면서 실버타운·요양시설로 이주해도 연금 수령 유지 기존 주택에서 소형 주택으로 이사 시에도 연금 중단 없이 재가입 가능 4 주택연금 제공혜택 강화 부모가 연금으로 쓴 신용카드 사용액을 자녀의 소득공제 항목으로 인정 종부세·재산세 감면으로 실질적 세 부담 완화"
불필요한 3번째와 5번째 문서는 필터링 되어 전체적으로 "부동산 공약"과 관련 문서들이 포함되었고 기존의 4번째 문서는 Re-rank 후 2번째에 위치하게 되었다.
이렇게 Re-rank를 통해 불필요한 문서를 필터링하고 유사도 높은 문서를 상위에 위치시킴으로써 LLM 응답 품질의 향상의 기대할 수 있다.
Re-rank 적용
전체 검색하는 과정에 Re-rank를 적용하는 것은 사실 간단하다. 단순히 기본 Retriever가 검색해온 문서를 Re-ranker가 다시 한번 재평가하도록 만들기만 하면 된다.
이 때, 벡터저장소에서 유사도 기반으로 문서를 검색할 때 기존보다 더 많은 문서를 검색해 Re-rank를 수행하면 더 높은 정확도의 문서를 얻을 수 있다. 하지만 그만큼 평가할 문서가 많기 때문에 속도는 저하된다.
공약21에서는 검색하려는 문서 수의 2배를 벡터저장소에서 검색 한 후 리랭크 과정을 통해 필터링했다.
Re-ranker 종류
Re-ranker 모델의 종류는 크게 2가지로 나눌 수 있다.
- 학습된 Cross-Encoder 기반 모델 리랭커
- LLM 기반 리랭커
Cross-Encoder
Cross-Encoder는 사전에 학습된 리랭크 전용 모델(`bge-reranker`, `monoT5`, `E5` 등)을 사용해 `(질문, 문서)`의 쌍을 입력받아 유사도를 예측하는 방식이다. 이 방법은 로컬에서 리랭크를 수행하기 때문에 속도가 빠르며 높은 정확도를 기대할 수 있고 비용이 낮다. 하지만 LLM 기반 리랭커보다는 문맥 이해력이 떨어진다. 또한, 로컬에서 직접 모델을 실행시키는 만큼 LLM 기반 리랭커보다 높은 메모리, GPU 등의 하드웨어 스펙이 요구된다.
필요 하드웨어 스펙은 모델마다 차이가 있으며 경량화해 실행시킬 수도 있다.
- + 빠름(로컬 실행)
- + 정확도 높음
- + 비용 낮음
- - LLM 리랭커보다 문맥 이해력 낮음
- - LLM 리랭커보다 좀 더 높은 하드웨어 스펙이 요구됨
- 대부분의 상업적 RAG 시스템에서 사용됨
공약21을 개발할 때, 리랭커 모델을 적용해서 리랭크를 실행할 수 있도록 했었다. 이 때, 사용한 모델은 `Dongjin-kr/ko-reranker`인데 `BAAI/bge-reranker-large` 모델에 한국어 데이터로 파인튜닝한 모델이었다. 하지만 이름에서도 알 수 있듯, 모델의 크기가 커서 추론 속도가 느렸고 응답 속도 또한 LLM 기반 리랭커와 비슷하게 7~8초 정도 걸리게 되었다. 또한, 서버의 하드웨어 스펙이 좋지 않아 문서 검색을 위한 Flask 서버를 실행시켰을 때 메모리 부족으로 정상적으로 동작하지도 않았다. 때문에, 당시에는 리랭커 모델을 사용한 리랭크는 막아두고 LLM 기반 리랭커만 사용했다. 이 글을 작성하면서 `Dongjin-kr/ko-reranker` 모델 보다 작은 `BAAI/bge-reranker-base`으로 테스트 해봤을 때, 확실히 응답속도가 7~8초에서 3초 정도로 개선된다는 것을 알 수 있었다. 모델을 사용한 리랭크를 진행한다면 상황에 따라 적절히 모델을 선택해야 한다.
LLM 기반 리랭커
굳이 리랭크 전용 모델을 사용하지 않더라도 많이 사용하는 LLM을 통해 Re-rank를 수행할 수도 있다. 이는 일반적으로 API를 사용해 GPT-4, Claude, Gemini 등 LLM 서비스에 Prompt를 전달한 후 결과를 응답받아 사용할 수 있다. 기본적으로 LLM의 문맥 이해도는 높기 때문에 Re-ranker 모델을 사용하는 것보다 더 뛰어난 정확도를 얻을 수 있다. 하지만 상용화된 LLM의 API를 사용하는 만큼 사용되는 토큰(질문과 응답에 포함된 전체 글자의 환산)만큼 API 사용 비용이 청구되며 로컬에서 실행시키는 모델 기반의 Re-ranker보다 속도가 느리다.
- + 정확도 매우 높음
- + API 기반으로 추가적인 하드웨어 필요없음
- - 느림(API)
- - 비용 높음
- 정밀 분석, 고품질 QA 등에 사용
LLM 리랭크 방식 또한 공약21 적용했었는데, 똑같이 "부동산 공약" 질문에 대해 Gemini를 활용해서 Re-rank를 진행했을 때 응답은 다음과 같다.
"content": "<집은 머무는 곳이지, 묶이는 곳이 아닙니다> 부동산공약 생애주기 맞춤형 주택 세금 감면 청년·신혼·다자녀·노년 단계별로 취득세·양도세 감면 확대 작은 집 → 큰 집 다시 작은 집'으로 주거 이동을 유연하게 설계 실수요자의 주거 부담은 줄이고, 비정상 거래와 자산 양극화는 차단 59형 집중 공급 & 지방 미분양 해소 재건축·재개발에 59㎡ 공급 집중해 분양 물량 확대, 분담금 부담 완화 지방 미분양 아파트에 민간임대 등록 허용, 양도세·취득세 감면 적용 저출산 대응 위한 다자녀 특별공급, 분양가 상한제, 고밀 개발 활성화 추진 지역주택조합 폐지 & 공공 안심공급 전환 허위광고·분담금 폭탄·조합비리 등 피해양산의 지역주택조합 전면 폐지 대신 지자체 주도로 공공이 시행하는 '안심주택조합' 제도 도입 추진 ● 조합형 투기·불법 난립 방지, 공급의 질과 예측력 모두 확보 압도적새로움 이준석 개혁신당",
"content": "서울 1 재건축 활성화를 위한 파격적 용적률 인센티브 노원, 도봉, 강북 등 강북 지역 중심으로 용적률 대폭 상향하여 주민들 분담금 완화 재건축 패스트트랙 제도 도입으로 신속하게 주택 물량 공급 2 권역별 핵심 혁신성장 거점 마련 잠실 : 문화 랜드마크 형성 및 스포츠·MICE 거점 육성 용산 : 글로벌 도시경쟁력 강화 위한 국제업무지구 개발 지원 여의도 : 금융허브를 중심으로 서남권 경제거점벨트 조성 상암 DMC : 미래산업 고용기반 구축 상계·창동 : 문화예술과 미래 신산업의 거점 육성 3 59형을 대폭 공급하여 신혼/청년/노년 가구에 범용적 대응 59m2형 주택 고밀도 개발로 대거 공급하여 광화문/여의도/삼성 등 직장인에 수요응답형 공급 활성화 ||||||",
"content": "2 재건축·재개발 시 59형 집중 공급을 위한 인센티브 부여 용적률 대폭 상향으로 사업성 제고를 통한 공급 확대 필요 방3개/화장실 2개의 형태로 공급이 가능하고 신혼부부, 1~2자녀 가구 등 다용도로 활용 가능 한 59형을 집중 공급할 경우 파격적 인센티브 부여 3 민간임대등록제도 조건부 부활 지방 미분양 아파트 한정 민간임대 등록 허용 및 세제 혜택 제공 갭투자 방식의 투자 방지 위해 월세 방식 한정 허용 지방 미분양 아파트 한정, 다주택자 추가 주택 구매 규제 미적용 4 지역주택조합 폐지 지역주택조합제도 폐지 공공성 보강한 안심주택조합(가칭) 제도 추진",
"content": "실수요자 중심의 생애맞춤형 부동산 정책을 실시하겠습니다. 1 생애주기 맞춤형 주택세금 감면제도 실시 사회초년생: 생애최초 주택 취득 시 취득세 50% 감면 신혼부부 : 결혼 7년 이내, 59m² 이하 주택 취득 시 취득세 감면 + 양도소득세 감면 자녀양육기 : 자녀 2명 이상→ 양도세 비과세 기준 상향(20억) 노인가구 : 만 65세 이상 고령자 주택 매도 시 양도세 장기보유특별공제 확대 == 11 11",
"content": "3 주택연금 가입 요건 완화 및 대출한도 확대 주택연금 가입 기준을 1주택자는 폐지, 다주택자는 20억원까지 허용 우대형 상품 주택가격 확대(2억→ 3억) 대출한도를 기존 6억에서 10억으로 확대(담보 50%) 자택을 유지하면서 실버타운·요양시설로 이주해도 연금 수령 유지 기존 주택에서 소형 주택으로 이사 시에도 연금 중단 없이 재가입 가능 4 주택연금 제공혜택 강화 부모가 연금으로 쓴 신용카드 사용액을 자녀의 소득공제 항목으로 인정 종부세·재산세 감면으로 실질적 세 부담 완화"
확실히 기본 Retriever로만 문서를 검색했을 때 보다, 더 정확한 문서들이 검색됐다. 하지만 확실히 응답 속도는 느렸다. 기본 Retriever로만 검색했을 때는 약 1초 정도의 시간이 걸렸지만 LLM 리랭크를 적용했을 때 적게는 6초에서 오래걸릴 때는 8초 이상이 걸릴 때도 존재했다. 확실히 높은 품질의 응답이 필요한 경우에 사용해야할 것 같다.
'프로젝트 > 공약21' 카테고리의 다른 글
공약21 RAG 전처리 (7) | 2025.06.17 |
---|---|
RAG 시스템 (0) | 2025.06.16 |
21대 대선 후보자 공약 비교 서비스 "공약21" (1) | 2025.05.24 |