สืบเนื่องจากเมื่อเร็วๆ นี้ มีผู้ใช้ Reddit รายหนึ่งชื่อ Previous_Door8633 ตั้งคำถามที่น่าสนใจว่า ทำไม DAC ที่เล่นได้สูงสุดถึง 32-bit/384 kHz มีอยู่จริงๆ ไหม…! และมีบางแนวคิดว่าถึงเหตุผล ทำไม DAC 32-bit/384 kHz ถึงได้ไม่สมเหตุสมผล…แล้วทำไมมันจึงยังใช้กล่าวอ้างได้อยู่ล่ะ
คำถามเยี่ยงนี้ มันใช่เลยนะ…แล้ว DAC 32-bit/384 kHz มีประโยชน์อะไร? และมีเพลงในรูปแบบนั้นจริงๆ หรือเปล่า?
Rudolfs Putnins (ผู้เขียนบทความในฐานะออดิโอไฟล์ที่จบการศึกษา Philosophy Degree) ได้ตอบคำถามนี้ด้วยการอธิบายแนวคิดหลายๆ อย่างให้เข้าใจง่ายขึ้น เริ่มจากการทำงานของข้อมูล, การบีบอัด, การแปลงบิต, เฮิรตซ์ และอื่นๆ…มาเริ่มกันเลย
เพื่อให้เห็นภาพคร่าวๆ ความละเอียด 32 บิต หมายความว่า สามารถแสดงข้อมูลเสียงได้อย่างแม่นยำสูงมาก (มากถึง 32 บิต) ในขณะที่อัตราการสุ่มตัวอย่าง (Sampling Rate) ที่ 384 kHz หมายความว่า สามารถประมวลผลตัวอย่างข้อมูลเสียงได้ 384,000 ครั้งต่อวินาที (384,000 เฮิรตซ์) ครั้งอย่างไรก็ตาม รูปแบบเสียงความละเอียดสูงส่วนใหญ่มีความละเอียดสูงสุดที่ 24-bit/192 kHz
ปัญหาของข้อมูล
เริ่มต้นด้วยการพิจารณาประเด็นเชิงปรัชญาเกี่ยวกับวิธีที่มนุษย์จัดเก็บและประมวลผลข้อมูล ปัญหาหลักของวิทยาการสารสนเทศ (Information Science) คือ ความเป็นจริงตามที่เราเห็นนั้นมีความซับซ้อนอย่างไม่มีที่สิ้นสุด ในทางตรงกันข้าม, วิธีการจัดเก็บและประมวลผลข้อมูลของเรานั้นมีข้อจำกัด ซึ่งหมายความว่า เราจำเป็นต้องบีบอัดความเป็นจริงให้มีการสูญเสียข้อมูลได้ (บ้าง) และเพื่อการจัดเก็บ, เราจำเป็นต้องบันทึกเฉพาะข้อมูลที่เกี่ยวข้องกับเราเท่านั้น
เป็นความจริงว่า มันอาจจะน่าผิดหวังที่คิดว่า อาจเป็นเหมือนไฟล์ MP3 หรือ JPEG ที่ถูกบีบอัด อย่างที่เรา-ท่านเคยรู้กัน แต่มันก็ไม่ได้เลวร้ายไปเสียหมด ที่น่าสนใจคือ เราสามารถบันทึกข้อมูลในลักษณะที่ใกล้เคียงกับของจริงได้ เมื่อเราตีความ (Interpret) มัน ทั้งนี้ทั้งนั้น *Harry Nyquist บอกไว้ว่า การสุ่มตัวอย่างที่ความถี่สองเท่าของความถี่เดิมนั้นเพียงพอแล้ว (Sampling at twice the frequency of the original is all that’s needed)…แล้ว Harry Nyquist เป็นใคร?
*Harry Nyquist (แฮร์รี่ ไนควิสต์) (ค.ศ.1889-1976) เป็นนักฟิสิกส์และวิศวกรไฟฟ้าชาวสวีเดน-อเมริกัน ผู้มีส่วนสำคัญในการพัฒนาทฤษฎีการสื่อสาร และเป็นผู้บุกเบิกเทคโนโลยีดิจิทัล ผลงานของเขาที่ห้องปฏิบัติการเบลล์ได้วางรากฐานที่สำคัญสำหรับการส่งสัญญาณข้อมูลในปัจจุบัน

ผลงานที่สำคัญ
– ทฤษฎีบทการสุ่มตัวอย่างไนควิสต์-แชนนอน (Nyquist-Shannon Sampling Theorem) : ไนควิสต์ได้กำหนดหลักการว่า หากต้องการแปลงสัญญาณอานะลอกเป็นสัญญาณดิจิทัลอย่างถูกต้อง อัตราการสุ่มตัวอย่าง (Sampling Rate) จะต้องมีค่าอย่างน้อยสองเท่าของความถี่สูงสุดของสัญญาณ แม้ว่าคล็อด แชนนอนจะให้การพิสูจน์ทางคณิตศาสตร์ที่สมบูรณ์ในภายหลัง แต่ผลงานของไนควิสต์ในปี 1928 ก็เป็นรากฐานสำคัญของทฤษฎีนี้
– สัญญาณรบกวนความร้อน (Thermal Noise) : ในปี 1927 ไนควิสต์ได้ให้คำอธิบายทางคณิตศาสตร์เกี่ยวกับสัญญาณรบกวนความร้อนหรือที่เรียกว่า “สัญญาณรบกวนจอห์นสัน-ไนควิสต์” ซึ่งเป็นสัญญาณรบกวนที่เกิดจากการเคลื่อนที่แบบสุ่มของอิเล็กตรอนในตัวนำ การทำความเข้าใจสัญญาณรบกวนนี้มีความสำคัญต่อการออกแบบวงจรไฟฟ้าที่ต้องมีความไวสูง
– เกณฑ์เสถียรภาพไนควิสต์ (Nyquist Stability Criterion) : ผลงานในปี 1932 ของเขาได้พัฒนาวิธีตรวจสอบความเสถียรของเครื่องขยายสัญญาณป้อนกลับ เกณฑ์นี้เป็นเครื่องมือพื้นฐานในทฤษฎีการควบคุมสมัยใหม่ ซึ่งใช้ในการออกแบบระบบควบคุมต่าง ๆ เช่น ระบบควบคุมปืนใหญ่ในสงครามโลกครั้งที่สอง
– การส่งสัญญาณโทรเลข : ในช่วงทศวรรษที่ 1920 ไนควิสต์ได้ศึกษาความสัมพันธ์ระหว่างแบนด์วิดท์ของช่องทางการสื่อสารกับความเร็วในการส่งข้อมูล ซึ่งเป็นงานที่สร้างความก้าวหน้าอย่างมากให้กับเทคโนโลยีโทรเลขในยุคนั้น

ชีวิตและการทำงาน
– ช่วงต้นชีวิต : เกิดเมื่อวันที่ 7 กุมภาพันธ์ ค.ศ.1889 ที่ประเทศสวีเดน และอพยพมายังสหรัฐอเมริกาในปี ค.ศ.1907
– การศึกษา : เขาได้รับปริญญาด้านวิศวกรรมไฟฟ้าจากมหาวิทยาลัยนอร์ท ดาโคตา และปริญญาเอกสาขาฟิสิกส์จากมหาวิทยาลัยเยล
– อาชีพ : ทำงานที่ห้องปฏิบัติการเบลล์ (Bell Labs) เป็นเวลา 37 ปี และเกษียณในปี 1954 ตลอดชีวิตการทำงาน เขามีสิทธิบัตรด้านโทรคมนาคมมากถึง 138 ฉบับ
– การเสียชีวิต : ไนควิสต์เสียชีวิตในวันที่ 4 เมษายน ค.ศ.1976 ที่รัฐเท็กซัส
มรดกสืบทอด
– งานของไนควิสต์ได้วางรากฐานทางทฤษฎีให้กับเทคโนโลยีดิจิทัลจำนวนมากที่เราใช้ในปัจจุบัน ไม่ว่าจะเป็นไฟล์เสียง MP3, ภาพดิจิทัล และการสื่อสารทางดิจิทัลต่างๆ ชื่อของเขาได้รับการยกย่องและนำไปใช้เรียกคำศัพท์ทางวิศวกรรมมากมาย เช่น ความถี่ไนควิสต์ (Nyquist Frequency) และพล็อตไนควิสต์ (Nyquist Plot)
แนวคิดคือ เหตุการณ์ทางกายภาพ (Physical Events) ส่วนใหญ่สามารถแสดงได้ด้วยความถี่ (Frequency) และความเข้มข้น (Intensity) ทฤษฎีบทการสุ่มตัวอย่างไนควิสต์-แชนนอน (Nyquist-Shannon Sampling Theorem) ระบุว่า เราสามารถบันทึกปรากฏการณ์ที่ซับซ้อนเหล่านี้ในรูปแบบดิจิทัลได้อย่างแม่นยำ หากเราบันทึกด้วยความถี่สองเท่าของความถี่นั้นๆ…นั่นคือ Harry Nyquist บอกไว้ว่า การสุ่มตัวอย่างที่ความถี่สองเท่าของความถี่เดิมนั้นเพียงพอแล้ว แนวคิดนี้ได้กลายเป็นรากฐานในการประมวลผลสัญญาณดิจิทัล (Digital Signal Processing)
นั่นเพราะว่า โดยทั่วไป, มนุษย์ไม่สามารถได้ยินความถี่ที่สูงกว่า 20 kHz แต่มาตรฐานอัตราการสุ่มตัวอย่างเสียง (Standard Sampling Rate) จะถูกกำหนดไว้ที่ 44.1 kHz ซึ่งมากกว่าความถี่สูงสุดที่เราสามารถได้ยินถึงสองเท่า
อัดแน่นไปด้วยข้อมูล
แน่นอนว่า เสียงเพลงส่วนใหญ่ในปัจจุบันไม่ได้มีต้นกำเนิดมาจากชีวิตจริง เพราะถูกเสกสรรขึ้นในกระบวนการผลิตแบบดิจิทัลทั้งหมด ลองจินตนาการดูสักครู่ว่า มีเหตุการณ์ดนตรีจริงๆ ที่ต้องบันทึกเอาไว้ อัดเสียงสถานที่นั้นๆ จัดวางทุกอย่างไปยังปรีแอมป์ แล้วจึงส่งไปยังตัวแปลงสัญญาณอะนาลอกเป็นดิจิทัล การจับเสียง (Audio Capture) นั้นไม่ซับซ้อนและยุ่งยากน้อยไปกว่าการเล่นเสียง (Playback)
การเลือกตำแหน่งและตำแหน่งของไมโครโฟนเป็นสิ่งสำคัญอย่างยิ่งสำหรับวิศวกรบันทึกเสียง เพื่อให้สามารถสร้างเสียงต่างๆ สารพัดสารพันที่ผ่านสายสัญญาณได้อย่างแม่นยำ เช่นเดียวกับ DAC (Digital to Analog Converter; ADC (Analog to Digital Converter) ก็ทำงานที่ความลึกบิต (Bit Depth) และอัตราการสุ่มตัวอย่าง (Sample Rate) ตามที่กำหนดไว้ โดยปกติแล้ว ADC จะถูกตั้งค่าให้สูงที่สุดเท่าที่จะเป็นไปได้ โดยคำนึงถึงความสามารถในการจัดเก็บและประมวลผล (Storage and Processing Capabilities)
ในระหว่างทำการผสมสัญญาณ (Mixing), อัตราข้อมูลที่สูงขึ้นจะช่วยได้ เนื่องจากการประมวลผลสัญญาณดิจิทัล (Digital Signal Processing) ทุกประเภทมักจะทำงานได้ดีขึ้น เมื่อมีข้อมูลให้ทำงานด้วยมากขึ้น แม้ว่าจะไม่มีข้อมูลที่เกี่ยวข้องสำหรับผู้ฟังก็ตาม
หลังจากที่ทำการมาสเตอร์ (Mastered) และทำทุกอย่างเสร็จแล้ว, ความละเอียดของไฟล์เพลง (Resolution of The Music Files) จะขึ้นอยู่กับข้อกำหนดต่างๆ (Requirements) ของผู้จัดทำ บริการสตรีมมิ่งส่วนใหญ่มีคุณภาพเสียงเทียบเท่า CD อยู่ที่อัตรา 16-bit/44.1 kHz ในขณะที่บางบริการรองรับได้ถึง 24-bit/192 kHz หากต้องการเล่นไฟล์ความละเอียดสูง แน่นอนว่า ณ ตอนนี้มีร้านค้าเฉพาะทางที่สามารถขายไฟล์เสียง 32-bit/384 kHz ได้ แต่ก็หายากมาก…
มีอะไรให้คลี่แกะออกจากกล่องอีกเยอะ
กลับมาที่คำถามเดิมที่ว่า อัตราการสุ่มตัวอย่าง 384 kHz ในเพลงมีประโยชน์อะไร? เราได้รับประโยชน์จริง ๆ จากการจัดเก็บข้อมูลอะนาลอกไว้สูงถึง 192 kHz หรือไม่? DAC ของคุณใส่ใจกับสิ่งที่คุณป้อนเข้าไปหรือไม่? มันจะเล่นได้ดีขึ้นด้วยสตรีมข้อมูลที่สมบูรณ์ขึ้นหรือไม่?
…เอาล่ะ ก็แล้วแต่แหละนะ, ปัจจุบัน DAC ส่วนใหญ่มักจะทำการอัปแซมเปิล (Upsample) เสียงธรรมดาๆ อัตรามาตรฐาน 16-bit/44.1 kHz ให้กลายเป็นเสียงที่ไพเราะยิ่งขึ้นไปอีก ถึงแม้จะไม่มีการเพิ่มข้อมูลใดๆ เข้าไป แต่ข้อมูลสตรีมที่เพิ่มเข้ามาก็ประมวลผลได้ง่ายกว่า โดยไม่มีข้อผิดพลาดสารพัด (Errors)

มีข่าวลือว่า ESS DAC ใช้ไพพ์ไลน์ (Pipelines) มากกว่า 50 บิต เพื่อให้แน่ใจว่า สามารถควบคุมระดับเสียงได้โดยไม่เกิดข้อผิดพลาดในแง่ของ Quantization Errors ยกตัวอย่างเช่น เมื่อประมาณ 10 ปีที่แล้ว การฟังเพลงความละเอียดสูงกว่าความละเอียดของแผ่นซีดีนั้น สมเหตุสมผลกว่า ด้วยเหตุผลอยู่ตรงที่ “การกรองความถี่ต่ำ” (Low-pass Filtering) ซึ่ง DAC ส่วนใหญ่ใช้ตัวกรองความถี่ต่ำแบบดิจิทัล (Digital Low-Pass Filter) เพื่อให้ส่งเฉพาะสัญญาณที่ให้ประโยชน์ต่อการรับฟังไปยังแอมป์เท่านั้น
ตามหลักการแล้ว, ตัวกรองเหล่านี้ควรอนุญาตปล่อยผ่านเฉพาะความถี่ที่ต่ำกว่าครึ่งหนึ่งของความถี่การสุ่มตัวอย่าง (Sampling Frequency) และจะลดทอนความถี่ทั้งหมดที่สูงกว่า อย่างไรก็ตาม ตัวกรองที่ใช้งานจริงก็มีข้อเสียเช่นกัน เนื่องจากสามารถปรับให้เหมาะสมได้ทั้งในโดเมนความถี่ (Frequency-Domain) และโดเมนเวลา (Time-Domain) ดังนั้น ตัวกรองจึงทำงานได้ดีขึ้น หากตั้งค่าตัวกรองให้สูงกว่าช่วงการได้ยินของมนุษย์
โชคดีที่ DAC รุ่นใหม่ได้รับการพัฒนาขึ้นเรื่อยๆ และสามารถรองรับไฟล์เสียงมาตรฐานได้ดีขึ้น มีพลังประมวลผลที่มากขึ้น และ Low-Pass Filters ก็ทำงานได้ดีพอ แม้จะใช้กับอัตราไฟล์มาตรฐาน 16-bit/44.1 kHz ทั่วไปก็ตาม
แล้วทำไมสเปก 32-bit/384 kHz ถึงมีอยู่จริง?
เหตุผลหนึ่งคือ ความเชี่ยวชาญเฉพาะทางแบบเดิมๆ หาก ESS ออกชิปที่ทำได้ AKM ก็ต้องพัฒนาให้เทียบเท่าหรือเหนือกว่า เพื่อรักษาความสามารถในการแข่งขัน และเหตุผลที่สองก็เพียงเพราะพวกเขาทำได้ด้วยเทคโนโลยีก้าวหน้า!!

ด้วยกระบวนการผลิตที่ทันสมัย DAC แบบ 32-bit Delta-Sigma จึงไม่ใช่เรื่องยาก นั่นคือเหตุผลที่แม้แต่ดองเกิลธรรมดาๆ (Humble Dongle) ก็สามารถแสดงคุณสมบัติอันน่าทึ่งเหล่านี้ได้ แน่นอนว่า ยังต้องรอดูว่าประสิทธิภาพเสียงที่แท้จริงจะน่าประทับใจหรือไม่?
ความละเอียดสูง (Hi-Res)
โอเค, คุณชอบฟังเสียงที่บันทึกแบบ 24-bit/192 kHz มากกว่า, แล้วรู้สึกไม่ดีเหรอ?
มีบางสถานการณ์ที่เสียงความละเอียดสูงสร้างความแตกต่างที่ได้ยินได้อย่างชัดเจน การอัปแซมปลิงและดาวน์แซมปลิง (Upsampling and Downsampling) อาจให้ความโปร่งใสน้อยกว่า และการกรองเสียงอาจมีข้อผิดพลาดใน DAC บางตัว แต่ประเด็นคือ เอฟเฟกต์เหล่านี้อยู่ในช่วงที่ได้ยินได้ แทนที่จะเกิน 20 kHz ที่หูมนุษย์ไม่รับรู้

สำหรับเพลง 32-bit/384 kHz มีปัญหาที่ไม่ค่อยมีใครพูดถึง…ไมโครโฟนที่สามารถรับคลื่นอัลตราโซนิก (Ultrasonic) ได้อย่างน่าเชื่อถือมีน้อย และเทคนิคการบันทึกเสียงก็ไม่ได้คำนึงถึงคลื่นอัลตราโซนิกด้วย ถ้าบันทึกเสียงอะไรลงไป ก็แสดงว่า ไม่ได้ตั้งใจ หรือว่า มิได้จงใจใส่ลงไป จริงๆ
นอกจากนี้ ยังมีข้อเท็จจริงอีกว่า สตูดิโอมอนิเตอร์ไม่ได้ถูกออกแบบมาให้มอนิเตอร์เสียงสูงขนาดนั้น ดังนั้นวิศวกรจึงไม่สามารถตัดสินใจมิกซ์เสียงได้อย่างมีสติ ถ้าพวกเขาได้ยินเสียงสูงขนาดนั้น-ก็ถือว่าใช้ได้ (แล้วปล่อยผ่าน!)
สุดท้ายนี้ อุปกรณ์เล่นเสียงของผู้ใช้ปลายทาง ไม่ว่าจะเป็นลำโพงหรือหูฟัง มักไม่ได้รับการเตรียมพร้อมให้รองรับเนื้อหาเสียง (Sound Spectrum) ที่อยู่ในย่านความถี่เสียงสูงมากเยี่ยงนี้ ซึ่งในบางกรณี เสียงระดับอัลตราโซนิก อาจปรับเปลี่ยนเสียงในช่วงที่ได้ยิน และทำให้สิ่งต่างๆ ในช่วงที่ได้ยิน-แย่ลงได้ (Make Things Worse)
แม้ว่า จะมีบางคนบอกว่า ได้ยินความแตกต่างระหว่างไฟล์ FLAC/WAV กับ DSD 256 อย่างชัดเจน ด้วยการอัปสเกลเพลงทั้งหมดเป็น DSD256 ข้อแตกต่างคือ การแยกเสียง, ตำแหน่งของเครื่องดนตรีบนเวทีเสียงจะชัดเจนขึ้น และเราสามารถได้ยินเสียงเครื่องดนตรีทุกชิ้นราวกับอยู่ใกล้ๆ…ยิ่งไปกว่านั้น เสียงยังถูกควบคุมได้ดีขึ้นในช่วงความถี่เสียงตั้งแต่ 20 Hz ถึง 20 kHz ฮาร์โมนิกของเพลงก็มีบทบาทสำคัญเช่นกัน แต่สุดท้ายแล้ว ปัจจัยสำคัญในการรับฟังถึงความต่าง ก็คือ อุปกรณ์ที่ใช้ จำเป็นต้องมีอุปกรณ์ระดับไฮ-เอนด์ เพื่อรับฟังความสมดุลของเสียงเพลง และเพลิดเพลินกับเสียงที่บันทึกในสตูดิโอ
อย่างที่นักเล่นเครื่องเสียงมืออาชีพทุกคนจะบอกคุณ เสียงของ DAC ไม่ได้ขึ้นอยู่กับความละเอียดที่รองรับ หรือส่วนประกอบทางไฟฟ้าใดๆ เลย ลายเซ็นเสียง (Sound Signature) ที่เกิดขึ้น (หรือการขาดหายไป) เป็นผลมาจากปัจจัยหลายอย่าง
ซึ่งมีบางคนอาจจะบอกว่า รูปแบบดิจิทัลที่แตกต่างกันนั้น ฟังออกได้ แต่คุณกำลังประสาทหลอนในแง่ของความแตกต่างนั้น ก็เพราะว่า การ “อัปสเกล” ตามนิยามแล้ว สิ่งนี้จะเพิ่มสิ่งแปลกปลอมเข้าไปในเพลงต้นฉบับที่คุณกำลังรับฟัง กล่าวคือ คุณเองกำลังเปลี่ยนแปลงเพลงต้นฉบับ ซึ่งแน่นอนว่าขึ้นอยู่กับอัปสเกล อัลกอริทึม ที่ก็ไม่แน่ใจเหมือนกันว่า สิ่งนี้ส่งผลต่อความแตกต่างทางดนตรีที่คุณรับรู้ได้อย่างไรบ้าง แต่ที่แน่ๆ มันไม่ใช่เพลงต้นฉบับ…ก็แล้วคุณกำลังฟังอะไรอยู่ล่ะ? อัตราการสุ่มตัวอย่างที่สูงขึ้น เช่น การตอบสนองความถี่ที่สูงขึ้น ย่อมหมายถึง “การจัดฉาก” การแยกเสียง หรือ อะไรก็ตามที่ดีขึ้นกระนั้นหรือ?
ในต่างประเทศ บางคนอาจจะบอก ผมสามารถรับรู้ไฟล์ Vorbis 320kbps จาก Spotify หรือไฟล์ mp3 320kbps หรือ YouTube opus 160kbps ได้อย่างชัดเจน, ผมยังสามารถรับรู้ไฟล์ FDK AAC 320kbps ทั้งแบบมีและไม่มีฟิลเตอร์ได้ อย่างไรก็ตาม ผมไม่สามารถรับรู้ไฟล์ที่สูงกว่า FLAC 16-bit/44.1kHz ได้ และผมไม่สามารถรับรู้วิธีการสุ่มตัวอย่างแบบอื่นๆ ได้ ดังนั้นไม่ว่าจะเป็น 48kHz ก็ไม่เป็นปัญหาเช่นกัน
...จริงหรือไม่? ที่มีคนในวงการบอกไว้ อะไรก็ตามที่คุณภาพสูงกว่า CD ถือเป็นการสิ้นเปลืองทรัพยากร (Waste Of Resources) ?!
__________________________


























