Ollama ได้กลายเป็นมาตรฐานสําหรับการทํางานของ Large Language Models (LLMs) ในท้องถิ่น ในบทเรียนนี้ฉันต้องการแสดงสิ่งสําคัญที่สุดที่คุณควรรู้เกี่ยวกับ Ollama https://youtu.be/AGAETsxjg0o?embedable=true ดูบน YouTube: Ollama Full Tutorial ดูใน YouTube: วอลล์มา Full Tutorial วอลล์มา Full Tutorial วอลล์มา Full Tutorial Ollama คืออะไร Ollama เป็นแพลตฟอร์ม open-source สําหรับการเรียกใช้และจัดการแพคเกจรูปแบบภาษาใหญ่ (LLM) ทั้งหมดบนเครื่องในท้องถิ่นของคุณ มันรวมน้ําหนักรูปแบบการกําหนดค่าและข้อมูลลงในแพคเกจรูปแบบเดียว Ollama มีอินเตอร์เฟซสายคําสั่ง (CLI), API REST และ Python / JavaScript SDK ช่วยให้ผู้ใช้สามารถดาวน์โหลดโมเดลเรียกใช้แบบออฟไลน์และแม้กระทั่งเรียกฟังก์ชั่นที่กําหนดโดยผู้ใช้ การเรียกใช้โมเดลในท้องถิ่นให้ความเป็นส่วนตัวของผู้ใช้ลบความล่าช้าเครือข่ายและเก็บข้อมูลบนอุปกรณ์ของผู้ใช้ ติดตั้ง Ollama เยี่ยมชมเว็บไซต์อย่างเป็นทางการเพื่อดาวน์โหลด Ollama สามารถใช้ได้สําหรับ M https://ollama.com/ ac, Windows, and Linux. https://ollama.com/ ลินุกซ์ curl -fsSL https://ollama.com/install.sh | sh แม็กซ์ : brew install ollama Windows: ดาวน์โหลด ติดตั้งและเรียกใช้ .exe วิธีการทํางาน Ollama ก่อนที่จะเรียกใช้โมเดลเป็นสิ่งสําคัญที่จะเข้าใจ Quantization Ollama โดยปกติจะเรียกใช้โมเดลที่มีปริมาณถึง 4 บิต (q4_0) ซึ่งช่วยลดการใช้หน่วยความจําอย่างมีนัยสําคัญด้วยการสูญเสียคุณภาพน้อยที่สุด Recommended Hardware: รุ่น 7B (เช่น Llama 3, Mistral): ต้องใช้ RAM ~8GB (ทํางานบนแล็ปท็อปที่ทันสมัยมากที่สุด) 13B - 30B รุ่น: ต้องใช้ 16GB - 32GB RAM 70B + รุ่น: ต้องใช้ 64GB + RAM หรือ GPU คู่ GPU: GPU ของ NVIDIA หรือ Apple Silicon (M1/M2/M3) เป็นเครื่องมือที่แนะนําสําหรับความเร็ว ไปที่ และคลิกที่ “รุ่น” และเลือกรุ่นสําหรับทดสอบของคุณ เว็บไซต์ของ Ollama เว็บไซต์ของ Ollama หลังจากนั้นคลิกที่ชื่อรุ่นและคัดลอกคําสั่งปลายทาง: จากนั้นเปิดหน้าต่าง terminal และวางคําสั่ง: มันจะช่วยให้คุณสามารถดาวน์โหลดและแชทกับรุ่นได้ทันที Ollama CLI - คําสั่งหลัก CLI ของ Ollama เป็นศูนย์กลางในการจัดการรูปแบบ คําสั่งทั่วไป ได้แก่: ollama pull <model> — ดาวน์โหลดรุ่น ollama run <model> — Run a model interactively ollama list or ollama ls — List downloaded models ollama rm <model> — ลบรูปแบบ ollama create -f <Modelfile> — สร้างรูปแบบที่กําหนดเอง ollama serve — เปิดเซิร์ฟเวอร์ Ollama API ollama ps — แสดงรุ่นที่ทํางาน ollama stop <model> — Stop a running model ollama help - แสดงความช่วยเหลือ การปรับแต่งขั้นสูง: แบบกําหนดเองพร้อมรูปแบบไฟล์ คุณสามารถ “ปรับแต่ง” บุคลิกภาพและข้อ จํากัด ของรูปแบบโดยใช้ ModelFile นี้คล้ายกับ Dockerfile สร้างไฟล์ที่เรียกว่า Modelfile เพิ่มการกําหนดค่าต่อไปนี้: # 1. Base the model on an existing one FROM llama3 # 2. Set the creative temperature (0.0 = precise, 1.0 = creative) PARAMETER temperature 0.7 # 3. Set the context window size (default is 4096 tokens) PARAMETER num_ctx 4096 # 4. Define the System Prompt (The AI’s “brain”) SYSTEM """ You are a Senior Python Backend Engineer. Only answer with code snippets and brief technical explanations. Do not be conversational. """ กําหนดรูปแบบพื้นฐาน FROM สร้างระบบอย่างรวดเร็ว SYSTEM การควบคุมพฤติกรรม inference PARAMETER หลังจากนั้นคุณต้องสร้างรูปแบบโดยใช้คําสั่งนี้: ollama create [change-to-your-custom-name] -f Modelfile นี่จะห่อรูปแบบ + ตัวอย่างแม่แบบเข้าด้วยกันเป็นแพคเกจที่สามารถใช้ซ้ําได้ จากนั้น Run ใน: ollama run [change-to-your-custom-name] กด Enter หรือคลิกเพื่อดูภาพในขนาดเต็ม เซิร์ฟเวอร์ Ollama (Local API) Ollama สามารถเรียกใช้เป็นเซิร์ฟเวอร์ท้องถิ่นที่แอพสามารถเรียกใช้ เพื่อเริ่มต้นเซิร์ฟเวอร์ใช้คําสั่ง: ollama serve มัน listenes บน http://localhost:11434 โดยค่าเริ่มต้น วัตถุประสงค์ import requests r = requests.post( "http://localhost:11434/api/chat", json={ "model": "llama3", "messages": [{"role":"user","content":"Hello Ollama"}] } ) print(r.json()["message"]["content"]) นี้ช่วยให้คุณสามารถบูรณาการ Ollama ในแอพหรือบริการ การบูรณาการ Python ใช้ Ollama ในแอพพลิเคชัน Python กับห้องสมุดอย่างเป็นทางการ ดําเนินคําสั่งเหล่านี้: สร้างและเปิดใช้งานสภาพแวดล้อมเสมือน: python3 -m venv .venv source .venv/bin/activate ติดตั้งห้องสมุดอย่างเป็นทางการ: pip install ollama ใช้รหัส Python ที่เรียบง่ายนี้: import ollama # This sends a message to the model 'gemma:2b' response = ollama.chat(model='gemma:2b', messages=[ { 'role': 'user', 'content': 'Write a short poem about coding.' }, ]) # Print the AI's reply print(response['message']['content']) นี้ทํางานผ่าน API ในท้องถิ่นโดยอัตโนมัติเมื่อ Ollama ทํางาน You can also call a local server: import requests r = requests.post( "http://localhost:11434/api/chat", json={ "model": "llama3", "messages": [{"role":"user","content":"Hello Ollama"}] } ) print(r.json()["message"]["content"]) การใช้ Ollama Cloud Ollama ยังรองรับโมเดลคลาวด์ - มีประโยชน์เมื่อเครื่องของคุณไม่สามารถทํางานกับโมเดลขนาดใหญ่มาก ก่อนอื่นสร้างบัญชีใน จากนั้นภายในรุ่นหน้า e คลิกที่ลิงค์คลาวด์และเลือกรุ่นที่คุณต้องการทดสอบ https://ollama.com/cloud https://ollama.com/cloud ในรายการรุ่นคุณจะเห็นรุ่นที่มี ข้อกําหนด** ซึ่งหมายความว่ามันสามารถใช้ได้ในคลาวด์ Ollama -cloud คลิกที่มันและคัดลอกคําสั่ง CLI จากนั้นภายในเทอร์มินัลใช้: ollama signin เพื่อเข้าสู่ระบบบัญชี Ollama ของคุณ เมื่อคุณเข้าสู่ระบบด้วย ollama signin แล้วเรียกใช้โมเดลคลาวด์: ollama run nemotron-3-nano:30b-cloud รุ่นของคุณเองในคลาวด์ ในขณะที่ Ollama เป็น local-first Ollama Cloud ช่วยให้คุณสามารถกดรูปแบบที่กําหนดเองของคุณ (ซึ่งคุณสร้างด้วย Modelfiles) ไปยังเว็บเพื่อแบ่งปันกับทีมของคุณหรือใช้กับอุปกรณ์ต่างๆ สร้างบัญชีที่ ollama.com เพิ่มคีย์สาธารณะของคุณ (พบใน ~/.ollama/id_ed25519.pub) ปุ่มแบบกําหนดเองของคุณ: ollama push your-username/change-to-your-custom-model-name ข้อสรุป นี่คือภาพรวมที่สมบูรณ์ของ Ollama! เป็นเครื่องมือที่มีประสิทธิภาพที่ให้คุณควบคุมอัจฉริยะอัจฉริยะทั้งหมด หากคุณชอบกวดวิชานี้โปรดชอบและแบ่งปันความคิดเห็นของคุณในส่วนด้านล่าง ขอแสดงความยินดี ;)