
AI พยากรณ์อนุกรมเวลาแบบ Decoder

โมเดลพื้นฐานแบบ Decoder-only ของ Google สำหรับการพยากรณ์อนุกรมเวลา (Time-Series) ถือเป็นการเปลี่ยนผ่านจาก RNN และ LSTM แบบเดิม โดยใช้สถาปัตยกรรม Transformer แบบ Decoder-only คล้ายกับ LLMs ซึ่งมองข้อมูลอนุกรมเวลาเป็นลำดับของโทเค็น (Tokens) วิธีนี้ช่วยให้โมเดลจับความสัมพันธ์เชิงเวลาในระยะยาวและความสัมพันธ์ข้ามตัวแปรที่วิธีทางสถิติทั่วไปมองข้ามไปได้ โดดเด่นในการพยากรณ์แบบ Zero-shot ช่วยให้ผู้ใช้สามารถนำโมเดลที่ฝึกฝนไว้แล้วไปใช้กับชุดข้อมูลใหม่ได้โดยไม่ต้องปรับจูน (Fine-tuning) มากนัก สถาปัตยกรรมนี้เหมาะสำหรับนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์เชิงปริมาณที่ต้องการโมเดลการพยากรณ์ที่แม่นยำ ปรับขยายได้ และมีประสิทธิภาพสูงในโดเมนอนุกรมเวลาที่หลากหลาย
ต่างจากโมเดล Encoder-Decoder ที่มักเกิดคอขวดของข้อมูล สถาปัตยกรรมนี้ใช้ Causal Masking เพื่อทำนายค่าในอนาคตจากโทเค็นในอดีต ซึ่งเลียนแบบความสำเร็จของ GPT ทำให้โมเดลประมวลผลอนุกรมเวลาแบบหลายตัวแปร (Multi-variate) เป็นลำดับเดียว ช่วยเพิ่มประสิทธิภาพในการจับพลวัตเชิงเวลาที่ไม่เป็นเส้นตรงได้ดีกว่าโมเดล State-space แบบเดิม
โมเดลถูกฝึกฝนด้วยชุดข้อมูลอนุกรมเวลาขนาดใหญ่และหลากหลาย ทำให้สามารถสรุปผลไปยังโดเมนใหม่ที่ไม่เคยเห็นมาก่อนได้โดยไม่ต้องฝึกใหม่ ช่วยแก้ปัญหา 'Cold start' ในการพยากรณ์ที่มักเกิดจากข้อมูลประวัติไม่เพียงพอ ทำให้ได้ผลลัพธ์ที่แม่นยำทันทีสำหรับผลิตภัณฑ์หรือตลาดใหม่
การแปลงค่าอนุกรมเวลาต่อเนื่องให้เป็นโทเค็นแยกส่วน ช่วยให้โมเดลใช้ Embedding layers ในการแมปรูปแบบที่ซับซ้อนเข้าสู่พื้นที่แฝง (Latent space) มิติสูง ทำให้ Transformer สามารถให้ความสำคัญกับคุณลักษณะเชิงเวลาและความผิดปกติได้อย่างแม่นยำ จัดการกับสัญญาณรบกวนและฤดูกาลที่มักลดทอนประสิทธิภาพของโมเดลสถิติแบบเดิมอย่าง SARIMA
สถาปัตยกรรมรองรับ Input แบบหลายตัวแปรโดยธรรมชาติ ทำให้สามารถรับตัวแปรอนุกรมเวลาที่เกี่ยวข้องหลายร้อยตัวพร้อมกัน โดยใช้กลไก Self-attention เพื่อระบุความสัมพันธ์ข้ามตัวแปร เช่น ความผันผวนของราคาในสินทรัพย์หนึ่งที่สัมพันธ์กับการเปลี่ยนแปลงของปริมาณในอีกสินทรัพย์หนึ่ง ให้มุมมองที่ครอบคลุมซึ่งโมเดลตัวแปรเดียวทำไม่ได้
โมเดลแบบเดิมมักประสบปัญหา Vanishing gradients ในการจับความสัมพันธ์ระยะยาว แต่โมเดล Transformer นี้ใช้ Global Self-attention เพื่อเชื่อมโยงจุดใดๆ ในลำดับเวลาโดยไม่คำนึงถึงระยะห่าง ทำให้แนวโน้มในอดีตเมื่อหลายเดือนก่อนยังคงส่งผลต่อการพยากรณ์ปัจจุบัน นำไปสู่ความแม่นยำที่เหนือกว่าในการพยากรณ์ระยะไกล
ผู้จัดการฝ่ายปฏิบัติการใช้โมเดลนี้เพื่อทำนายความต้องการสินค้าคงคลังสำหรับ SKU หลายพันรายการ โดยวิเคราะห์ยอดขายย้อนหลัง แนวโน้มตามฤดูกาล และตัวชี้วัดทางเศรษฐกิจภายนอก ช่วยลดปัญหาของขาดสต็อกและต้นทุนสินค้าเกินความจำเป็นด้วยการพยากรณ์ที่แม่นยำและยาวไกลกว่าวิธี Moving-average แบบเดิม
นักวิเคราะห์เชิงปริมาณใช้โมเดลนี้กับชุดข้อมูลการเงินแบบหลายตัวแปรเพื่อทำนายการเคลื่อนไหวของราคา สินทรัพย์ โดยการเชื่อมโยงโทเค็นราคา ปริมาณ และความผันผวน โมเดลจะระบุรูปแบบที่ซับซ้อนและไม่เป็นเส้นตรงเพื่อใช้ประกอบกลยุทธ์การเทรดด้วยอัลกอริทึมและโปรโตคอลการจัดการความเสี่ยง
บริษัทสาธารณูปโภคใช้โมเดลนี้เพื่อพยากรณ์ความต้องการไฟฟ้าตามรูปแบบสภาพอากาศและการใช้พลังงานในอดีต ช่วยให้การกระจายพลังงานมีประสิทธิภาพและรักษาเสถียรภาพของโครงข่าย ป้องกันไฟฟ้าดับในช่วงที่มีความต้องการสูงสุดโดยการทำนายการพุ่งขึ้นของโหลดล่วงหน้าได้หลายชั่วโมง
ต้องการเครื่องมือพยากรณ์ที่แข็งแกร่งและปรับขยายได้ ซึ่งลดความจำเป็นในการทำ Feature engineering และการปรับจูน Hyperparameter ด้วยตนเองในทุกชุดข้อมูลใหม่
ต้องการโมเดลที่มีความแม่นยำสูง สามารถระบุความสัมพันธ์ที่ซับซ้อนและไม่เป็นเส้นตรงภายในชุดข้อมูลทางการเงินหรือวิทยาศาสตร์ขนาดใหญ่ที่มีหลายตัวแปร
มองหาสถาปัตยกรรมโมเดลพื้นฐานที่สามารถนำไปปรับใช้เป็นบริการ (Service) เพื่อให้ความสามารถในการพยากรณ์แบบทั่วไปครอบคลุมทั้งองค์กร
เป็นโครงการวิจัย โดยมีซอร์สโค้ดและโมเดลที่ฝึกฝนไว้ล่วงหน้าให้ใช้งานผ่าน GitHub ของ Google Research ภายใต้สัญญาอนุญาต Apache 2.0