Skip to main content

Author Introduction
1 · LLM Basics
- What is an LLM? (how to think about it)soon
- Tokens & Tokenizationsoon
- Next-Token Prediction & Samplingsoon
- Temperature, Top-p & Decoding Controlssoon
- Context Windows & Long-Contextsoon
- What are Reasoning Models?soon
- 2026 Model Landscape & Comparing Modelssoon
2 · Calling Models
3 · Prompting
4 · Retrieval (RAG)
- 1. What RAG Is
- 2. Embeddings & RAG Architecture
- 3. Data Ingestion Pipeline
- 4. Document Retrieval
- 5. Cosine Similarity
- 6. Your First RAG App
- 7. Conversational RAG
- 8. Chunking Strategies
- 9. Advanced Text Splitting
- 10. Semantic Chunking
- 11. Agentic Chunking
- 12. Multi-Modal RAG
- 13. Advanced Retrieval Techniques
- 14. Multi-Query RAG
- 15. Reciprocal Rank Fusion
- 16. Hybrid Search
- 17. Reranking & Next Steps
- More RAG (soon)
- Vector Databases (Pinecone, Qdrant, pgvector…)soon
- Vector Indexes — HNSW vs IVFsoon
- Query Rewriting & HyDEsoon
- Metadata Filtering & Multi-Tenant RAGsoon
- Grounding & Citationssoon
- Refusal & Unknown Handlingsoon
- RAG Failure Modes & Debuggingsoon
- Agentic RAG & Iterative Retrievalsoon
- RAG at Scale & Cache Invalidationsoon
5 · Agents
6 · Orchestration
7 · Evaluation
8 · Tuning Decisions
9 · Production & Ops

9. Advanced Text Splitting

Recursive splitting is the default, but real documents have structure (headings, code, tables) that generic splitters ignore. Format-aware splitting respects it.

How recursive splitting actually works

It tries a priority list of separators, only moving to a finer one when a chunk is still over the size limit:

 try "\n\n" (paragraphs) ─ still too big? ─▶ "\n" (lines)
   ─ still too big? ─▶ ". " (sentences) ─ still too big? ─▶ " " (words)

This keeps paragraphs and sentences intact whenever it can.

Format-aware splitters

from langchain_text_splitters import (
    RecursiveCharacterTextSplitter,
    MarkdownHeaderTextSplitter,
)

# Markdown: split on headings so each chunk keeps its section context
md = MarkdownHeaderTextSplitter(headers_to_split_on=[
    ("#", "h1"), ("##", "h2"), ("###", "h3"),
])
sections = md.split_text(markdown_doc)            # carries heading metadata

# Code: keep functions/classes intact
code_splitter = RecursiveCharacterTextSplitter.from_language(
    language="python", chunk_size=512, chunk_overlap=64,
)

Token-based sizing

LLM limits are counted in tokens, not characters. Sizing chunks by tokens makes your budget predictable:

splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=512,        # tokens, not chars
    chunk_overlap=64,
)

Practical notes

Headers as metadata — keeping the section title with each chunk improves both retrieval relevance and citation quality.
Don't split code mid-function — language-aware splitting avoids breaking syntax across chunks.

Next: Semantic Chunking →

How recursive splitting actually works
Format-aware splitters
Token-based sizing
Practical notes