GEO와 SEO는 무엇이 다른가요?

SEO가 검색 결과 순위를 높이는 작업이라면, GEO(Generative Engine Optimization)는 ChatGPT·Perplexity·AI Overviews 같은 AI 답변에 내 콘텐츠가 인용되도록 만드는 작업입니다. 순위가 아니라 인용이 목표라서, 문단 단위의 완결성과 검증 가능한 고유 데이터가 훨씬 중요해집니다.

llms.txt만 만들면 AI 검색에 잘 노출되나요?

아닙니다. 2026년 들어 구글은 llms.txt·청킹·AI 전용 리라이트가 필수가 아니라고 공식적으로 밝혔습니다. llms.txt는 비용이 거의 들지 않아 켜두는 보조 장치일 뿐이고, 실제 효과는 인용할 만한 고유 콘텐츠와 명확한 문서 구조에서 나옵니다.

AI 검색봇과 학습봇은 왜 구분해야 하나요?

OpenAI의 GPTBot(학습용)과 OAI-SearchBot(검색 인용용), Anthropic의 ClaudeBot과 Claude-SearchBot은 서로 다른 크롤러입니다. AI 답변에 인용되고 싶다면 최소한 검색 계열 봇은 열어야 하는데, 많은 사이트가 robots.txt에서 이를 뭉뚱그려 차단해놓고 노출이 안 된다고 고민합니다.

이 블로그에 켜둔 GEO 장치들 — 전부 공개

MADOBI LAB의 첫 리서치 주제는 이 블로그 자체입니다. AI 검색에서 발견되는 사이트를 만들기 위해 무엇을 켰는지, 왜 켰는지를 전부 공개합니다. 몇 달 뒤 크롤러 로그와 유입 데이터로 이 장치들의 실제 효과를 검증하는 후속 글을 쓸 예정입니다 — 그게 이 글을 “목록”이 아니라 “실험 설계”로 만들어 줍니다.

전제: 크롤러는 JS를 잘 실행하지 않는다

대부분의 AI 크롤러는 자바스크립트를 실행하지 않거나 제한적으로만 실행합니다. 클라이언트에서 렌더링되는 사이트는 크롤러에게 빈 껍데기로 보일 수 있다는 뜻입니다.

그래서 이 블로그는 정적 빌드(Astro)입니다. 모든 페이지가 빌드 타임에 완성된 HTML로 만들어져 CDN에서 그대로 서빙됩니다. 크롤러가 읽는 것과 사람이 보는 것이 100% 같습니다. GEO의 절반은 여기서 끝납니다.

장치 목록

1. robots.txt — 검색봇과 학습봇의 구분 허용

robots.txt에서 AI 크롤러를 역할별로 나눠 전부 명시적으로 허용했습니다.

검색 인용 봇: OAI-SearchBot, ChatGPT-User, Claude-SearchBot, Claude-User, PerplexityBot — AI 답변에 인용되기 위한 통로
학습 봇: GPTBot, ClaudeBot, Google-Extended — 모델 학습 데이터 수집

둘은 별개 크롤러입니다. “AI에 노출이 안 된다”는 사이트의 상당수가 robots.txt에서 이 둘을 뭉뚱그려 차단하고 있습니다. 우리는 리서치 블로그의 목적상 둘 다 열었지만, 정책적으로 학습만 막고 싶다면 학습 봇만 차단하는 선택지도 있습니다.

2. 글마다 자동 생성되는 구조화 데이터 3종

모든 글은 빌드 타임에 다음 JSON-LD가 자동으로 붙습니다. 사람이 관리하지 않습니다.

BlogPosting — 제목, 발행일, 저자(조직), 발행처(매드업), 요약
BreadcrumbList — 홈 → 주제 → 글의 위치 계층
FAQPage — 글에 FAQ가 있을 때만 (지금 보고 계신 이 글에도 붙어 있습니다)

프런트매터에 제목·날짜·FAQ를 쓰면 끝입니다. 스키마를 손으로 만들면 반드시 어긋나는 날이 오기 때문에, 어긋날 수 없는 구조로 만들었습니다.

3. 인용 가능한 “핵심 요약” 블록

AI 답변은 페이지가 아니라 문단을 인용합니다. 여러 사이트에서 문단을 조각조각 뽑아 답을 조립하죠. 그래서 모든 글 상단에 완결된 문장으로 쓴 요약 블록을 강제했습니다 — 콘텐츠 스키마 차원에서 tldr 필드가 없으면 빌드가 실패합니다.

각 요약 문장은 그 문장 하나만 떼어 읽어도 사실이 성립하도록 씁니다. 주어를 생략하지 않고, 검증 가능한 내용만 담습니다.

4. 마크다운 원문 미러

모든 글 URL 끝의 슬래시를 .md로 바꾸면 마크다운 원문이 나옵니다. HTML 페이지의 <link rel="alternate" type="text/markdown">이 이를 가리키고 있어서, AI 에이전트가 HTML 파싱 없이 깨끗한 텍스트를 가져갈 수 있습니다.

5. llms.txt — 자동 생성, 그러나 보조 장치

/llms.txt는 콘텐츠 컬렉션에서 빌드 타임에 자동 생성됩니다. 글이 늘어나면 발행과 동시에 갱신됩니다.

솔직한 평가를 달아두면 — 2026년 들어 구글은 llms.txt, 청킹, AI 전용 리라이트가 필요 없다고 공식적으로 밝혔습니다. 우리도 이것이 판을 바꾸는 장치라고 생각하지 않습니다. 비용이 0에 가까워서 켜둘 뿐이고, 무게는 고유 데이터와 문서 구조에 싣습니다.

6. 기본기: sitemap, RSS, canonical, 엔티티 연결

sitemap — 빌드마다 자동 생성
RSS — 신선도 신호이자 구독 채널
canonical + OG 메타 — 페이지마다 자동
Organization 스키마 — 이 블로그가 매드업(madup.com)의 리서치 블로그라는 엔티티 관계를 모든 페이지에서 선언합니다. 신생 도메인은 기존 브랜드와 묶일 때 신뢰를 물려받습니다.

다음 실험: 관측

장치를 켜는 것은 실험의 절반입니다. 나머지 절반은 관측입니다. 어떤 크롤러가 언제 무엇을 읽어갔는지 로그를 쌓고 있고, ChatGPT·Perplexity 답변에서 이 블로그가 인용되는지 추적하는 도구를 준비하고 있습니다. 숫자가 쌓이면 이 글의 각 장치에 “실제로 효과가 있었는가” 성적표를 달아 후속 글로 공개하겠습니다.

이 글 자체가 하나의 테스트 케이스입니다. 언젠가 AI 검색에서 “GEO 체크리스트”를 물었을 때 이 글이 인용된다면, 실험은 성공입니다.