volGPT – Memory Forensics Triage with LLM
Overview
volGPT là một project reproduce và cải tiến từ paper:
“volGPT: Evaluation on triaging ransomware process in memory forensics with Large Language Model” (FSI:DI 2024)
Project xây dựng một pipeline hoàn chỉnh để:
- phân tích memory dump bằng Volatility 3
- chuyển đổi thành dữ liệu có cấu trúc
- sử dụng LLM để triage process nghi ngờ
- đánh giá bằng các metric chuẩn (Precision, Recall, F1)
Motivation
Trong Digital Forensics:
Memory dump chứa:
- process độc hại
- artifact quan trọng
Nhưng:
- ❌ rất nhiều noise
- ❌ khó triage thủ công
Trong khi đó:
LLM có khả năng:
- reasoning
- hiểu context
👉 Project này kết hợp 2 thứ:
- memory forensics (Volatility)
- AI reasoning (LLM)
để tự động hóa triage.
Features
🧠 Memory Forensics Pipeline
Input: memory dump
Volatility 3 plugins:
windows.pslistwindows.vadinfowindows.malfind
Output:
- structured JSON artifacts
🤖 LLM-based Triage
Prompt-based classification
Majority voting (3 runs)
Multi-provider support:
- local (Ollama, LM Studio)
- cloud (OpenAI, OpenRouter, Gemini)
📊 Evaluation Framework
Metrics:
- Accuracy
- Precision
- Recall
- F1-score
Triage efficiency measurement
⚠️ Hallucination Analysis
Phân tích lỗi LLM:
- false positives
- false negatives
Taxonomy:
- name hallucination
- relationship error
- cascade error
👉 Đây là điểm rất research-level
🔬 Baseline Comparison
- Rule-based baseline
- XGBoost ML baseline
- So sánh với LLM
⚙️ Unified CLI System
Một command duy nhất:
python scripts/volgpt.py pipelineHỗ trợ:
- batch processing
- model comparison
- benchmark
- report generation
Architecture
Pipeline tổng thể:
Memory Dump
↓
Volatility 3 (artifact extraction)
↓
Structured JSON
↓
LLM Prompting + Voting
↓
Post-filter (reduce FP)
↓
Evaluation + BenchmarkTechnical Highlights
1. End-to-End DFIR Pipeline
- Từ raw memory dump → report hoàn chỉnh
- Không chỉ tool → mà là hệ thống đầy đủ
2. Multi-LLM Abstraction
Switch provider bằng config:
- local ↔ cloud
Dùng OpenAI-compatible API layer
3. Prompt Engineering for Security
Nhiều strategy:
- few-shot
- chain-of-thought
- high-recall mode
Có anti-hallucination guard
4. Research-grade Evaluation
- Model comparison tracking
- Family-level benchmark
- Paper-style table generation
5. Hybrid Detection System
LLM vs:
- Rule-based
- ML (XGBoost)
👉 Đây là tư duy Blue Team hiện đại
Security & Safety
- Không chạy malware thật
- Chỉ phân tích memory dump
- Môi trường cô lập (WSL2 / VM)
Challenges
- LLM hallucination trong security context
- Mapping giữa process → ground truth
- Cost vs performance trade-off (API budget ≤ 20$)
Future Improvements
- Tích hợp SIEM / SOC pipeline
- Streaming triage (real-time memory analysis)
- Fine-tuned model cho DFIR
- EDR-like behavior correlation
Conclusion
volGPT thể hiện:
khả năng kết hợp AI + cybersecurity
tư duy research reproduction + improvement
kinh nghiệm với:
- Memory forensics
- LLM evaluation
- Detection pipeline
📌 One-line showcase
Built an end-to-end memory forensics triage pipeline using Volatility and LLMs, with multi-model evaluation, hallucination analysis, and baseline comparison.
