Data Science กับการเปลี่ยนข้อมูลให้เป็นมูลค่าบน Cloud Server

data science

Data Science กับการเปลี่ยนข้อมูลให้เป็นมูลค่าบน Cloud Server

data science

‘Data Science’ หรือ ‘วิทยาศาสตร์ข้อมูล’ เป็นวิธีการที่ใช้รวบรวมข้อมูลเชิงลึกจากทั้ง ข้อมูลที่มีโครงสร้าง และข้อมูลที่ไม่มีโครงสร้าง ที่มีอยู่ภายในฐานข้อมูลของบริษัท โดยนำข้อมูลมาวิเคราะห์สถิติ ไปจนถึงกระบวนการ Machine Learning บน Cloud Server ซึ่งในองค์กรส่วนใหญ่แล้ว ‘Data Scientist’ หรือ ‘นักวิทยาศาสตร์ข้อมูล’ นั้น ทำงานเพื่อเปลี่ยนข้อมูลให้เป็นมูลค่า เพื่อเพิ่มรายได้ พร้อมๆ กับลดต้นทุน เพิ่มความไหลลื่นทางธุรกิจ และช่วยเปลี่ยนแปลงประสบการณ์ของลูกค้าผ่านการทำงานบน Cloud Server นั่นเอง

 

Data Scientist ทำงานอย่างไร?

 

หลายๆ องค์กรที่ให้ความสนใจกับเทคโนโลยี ‘Big Data’ แน่นอนว่าต้องมีคนที่เข้ามาดูแลนั่นคือ ‘นักวิทยาศาสตร์ข้อมูล’ หรือ ‘Data Scientist’ ซึ่งต้องทำหน้าที่ควบคู่กับการทำงานของอีก 2 ฝ่าย คือ ‘Data Analyst’ และ ‘Data engineers’ โดยทั้ง 3 ฝ่ายมีหน้าที่ในการจัดการข้อมูล ดังนี้

– Data Scientist คือ ออกแบบโมเดลจากข้อมูล เพื่อหาช่องทางใหม่ๆ ให้องค์กร

– Data Analyst คือ วิเคราะห์และออกแบบการนำเสนอข้อมูล เพื่อแก้ไขปัญหาส่งต่างๆ ในองค์กร

– Data Engineers คือ ออกแบบช่องทางของข้อมูล วิธีการจัดเก็บ และการใช้งาน

 

Data Scientist vs. Data Analyst

 

ทั้งสองหน้าที่จะทำหน้าที่ใกล้ชิดกัน โดยที่นักวิเคราะห์ข้อมูล (Data Analyst) จะอยู่ใต้วิทยาศาสตร์ข้อมูลอีกทีหนึ่ง และทั้งสองต้องรับรู้ตรงกันว่าข้อมูลขององค์กรนั้นเป็นอย่างไร ซึ่งนักวิทยาศาสตร์ข้อมูล (Data Scientist) ก็จะดึงผลลัพธ์จากนักวิเคราะห์ข้อมูล (Data Analyst) มาเพื่อทำการแก้ปัญหาอีกต่อหนึ่งนั่นเอง

 

Data Science vs. Big Data

 

ทั้งวิทยาศาตร์ข้อมูล (Data Science) และ Big Data ล้วนเป็นของคู่กัน แต่วิทยาศาสตร์ข้อมูล (Data Science) นั้นใช้เพื่อดึงมูลค่าจากข้อมูลทุกๆ ขนาด ไม่ว่าจะเป็นข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง หรือกึ่งมีโครงสร้าง ซึ่ง Big Data นั้น มีประโยชน์แก่นักวิทยาศาสตร์ข้อมูล (Data Science) ในหลายเหตุการณ์มากๆ เพราะว่า ยิ่งมีข้อมูลมากเท่าไหร่ ก็ยิ่งรวมพารามิเตอร์เข้ารูปแบบที่กำหนดไว้ได้มากเท่านั้น

 

Data Scientist teams

 

วิทยาศาสตร์ข้อมูล (Data Science) เป็นงานที่ต้องการทีมที่มีความเรียบร้อย ซึ่งนักวิทยาศาสตร์ข้อมูล (Data Scientist) ถือเป็นแกนหลักของทีมวิทยาศาตร์ข้อมูล ที่จะทำให้เดินหน้าจากข้อมูลไปยังการวิเคราะห์ และจากนั้นก็ทำการเปลี่ยนข้อมูลที่วิเคราะห์ ไปยังส่วนการผลิตที่เพิ่มมูลค่า ซึ่งต้องอาศัยสกิลและบทบาทหนักมาก  ตัวอย่างเช่น นักวิเคราะห์ข้อมูล (Data Analyst) ควรจะเข้ามาช่วยตรวจสอบข้อมูล ก่อนที่จะทำการนำเสนอให้กับทีม และพยายามรักษารูปแบบข้อมูลไว้ให้เหมือนเดิม ส่วนนักวิศวกรรมข้อมูล (Data engineer) เป็นหน่วยงานที่จำเป็นต่อการสร้างท่อลำเลียงข้อมูล เพื่อทำการตกแต่งเซ็ตข้อมูล ให้สามารถใช้กับส่วนอื่นๆ ของบริษัทได้

องค์ประกอบในการทำ วิทยาศาสตร์ข้อมูล (Data Science)

  1. Data Processing & cleaning
    ขั้นตอนการจัดแบ่งและจัดเตรียมข้อมูลโดยรวม ด้วยการจัดการกับชนิดของชุดข้อมูลที่ไม่เหมือนกัน และนำไปสู่การวิเคราะห์หรือการสร้างแบบจำลองในที่สุด
  2. Analysis & Modelling
    การวิเคราะห์และทำความเข้าใจกับข้อมูลอย่างลึกซึ้ง ในแง่ของสถิติและคณิตศาสตร์ เพื่อสร้างและใช้โมเดล Machine Learning เชิงวิเคราะห์หรือทำนายที่หลากหลาย
  3. Programming languages
    วิทยาศาสตร์ข้อมูลต้องการการทดสอบหลายรูปแบบและการปรับให้เหมาะสม พร้อมกับการสร้างภาพข้อมูล เพื่อดึงข้อมูลเชิงลึกที่ถูกต้องทำการอนุมานทำนายหรือการตัดสินใจ
  4. การจัดการข้อมูล
    อัลกอริธึมและการผลิตขององค์กรต้องมีสภาพแวดล้อมที่เหมาะสม เพื่อจัดเก็บข้อมูลโดยการระบุค่าเครื่องที่เหมาะสม และให้ระบบสามารถทำงานในสคริปต์ที่กำหนดไว้
  5. รูปแบบการตรวจสอบและความรู้เกี่ยวกับโดเมน
    การจัดรูปแบบข้อมูล โดยมองหารูปแบบและสำรองข้อมูลจากการวิเคราะห์และตรวจสอบทุกขั้นตอน เพื่อให้เหมาะสมกับความต้องการของอุตสาหกรรม สิ่งนี้เป็นทักษะที่สำคัญของ นักวิทยาศาสตร์ข้อมูล (Data Scientist)
  6. Communication & Visualisation
    การสื่อสารเป็นทักษะที่สำคัญสำหรับ นักวิทยาศาสตร์ข้อมูล (Data Scientist) ในการสื่อสารแบบจำลองหรือการคาดการณ์ที่พวกสร้างขึ้นมา กับฝ่ายงานที่เกี่ยวของ เพื่อบรรลุเป้าหมายที่วางเอาไว้
  7. Open Source Community
    วิทยาศาสตร์ข้อมูล (Data Science) มักจะสร้างขึ้นด้วยเครื่องมือ Open Source เพราะฉะนั้นการเรียนรู้และทำความรู้จักการทำงานของระบบเหล่านี้ เพื่อสนับสนุนการทำงานของระบบ

ความน่าสนใจของวิทยาศาสตร์ข้อมูล (Data Science)

ความน่าสนใจของวิทยาศาสตร์ข้อมูล (Data Science) ขึ้นอยู่กับความจำเป็นขององค์กรนั้นๆ วิทยาศาสตร์ข้อมูลอาจช่วยองค์กรสร้างเครื่องมือต่างๆ ที่ไว้ใช้ทำนายความล้มเหลวของฮาร์ดแวร์ หรือช่วยให้องค์กรสามารถบำรุงรักษาและป้องกันการ Downtime ที่ไม่ได้วางแผนไว้ได้ และยังสามารถช่วยคาดการณ์ได้ว่าเราควรวางผลิตภัณฑ์ ไว้บนเชลฟ์ของร้านค้า หรือคาดได้ว่า ด้วยรูปลักษณ์และลักษณะของผลิตภัณฑ์นั้น จะมีความนิยมเป็นอย่างไร เป็นต้น

วิทยาศาสตร์ข้อมูล (Data Science) กำลังเปลี่ยนแปลงโฉมหน้าของอุตสาหกรรมต่างๆ อย่างรวดเร็วด้วยนวัตกรรมข้อมูลกลายเป็นฟังก์ชันหลักขององค์กร เช่น การขาย, การตลาด หรือ การออกแบบผลิตภัณฑ์ก็ตาม ในปัจจุบันล้วนต้องใช้ วิทยาศาสตร์ข้อมูล (Data Science) ในการทำงานทั้งสิ้น

ข้อมูลจาก Gemalto ระบุว่า ดัชนีความเชื่อมั่นด้านความปลอดภัยของข้อมูล ในปี 2018 พบว่า 89% ขององค์กรสามารถใช้งาน วิทยาศาสตร์ข้อมูล (Data Science) เพื่อให้เกิดความได้เปรียบในการแข่งขันทางธุรกิจ

สำหรับองค์กรที่สนใจการทำ ‘Big Data’ สร้างsolutionระบบการจัดการแหล่งเก็บข้อมูลดิบ (Raw data) ไว้ใน ทะเลสาบข้อมูล (Data Lake) รวมถึง โซลูชันการจัดการแหล่งเก็บข้อมูลใหม่ตามโครงสร้าง ที่เรียกว่า โกดังข้อมูล (Data Warehouse) เพื่อสร้างระบบสำหรับสกัดข้อมูล (Extract) ปรับแต่งโครงสร้างข้อมูล (Transform) และนำไปจัดเก็บ (Load) หรือ ETL จาก Data lake เข้าสู่ Data warehouse

 

เริ่มพัฒนาโซลูชัน ‘Big Data’ กับ Nipa.Cloud ได้เลยวันนี้!

สอบถามเพิ่มเติมได้ที่

LINE : @NipaCloud

Website: https://www.nipa.cloud/

Facebook: https://www.facebook.com/nipacloud/

Inbox: https://www.messenger.com/t/nipacloud

Email: sales@nipa.cloud

Call: 02-107-8251 ต่อ 444

สอบ OpenStack Certificate Administrator คืออะไร? ทำไม OpenStacker ต้องสอบ

เรามั่นใจว่าความฝันสูงสุดของ OpenStack Admin หลายคน คือ การมี OpenStack Certificate Administrator หรือที่รู้จักกันในชื่อภาษาไทยว่า “ใบรับรองความสามารถด้านการดูแลระบบ OpenStack” ไว้ในครอบครอง เพราะมันเป็นเสมือนใบเบิกทางที่จะนำพาตัวเองไปสู่หนทางที่ไกลกว่า ซึ่งหลายคนคงรู้วิธีการสมัครสอบ OpenStack Certificate  Administrator  กันอยู่แล้ว ว่าสามารถสมัครสอบได้ที่นี่ และมีค่าใช้จ่ายอยู่ที่ราคา $300 สามารถสอบได้ภายใน 12 เดือนหลังการชำระเงิน ฉะนั้นวันนี้เราจึงจะพาย้อนความกลับไปดูว่าเจ้าใบรับรองที่ใครๆ ก็อยากได้นี่มีความเป็นมาอย่างไร แล้วเมื่อได้มาสามารถนำไปทำอะไรได้บ้าง

ตามเดิม OpenStack Certificate (ใบรับรอง OpenStack) เริ่มต้นมาจากบริษัทยักษ์ใหญ่ อย่าง Mirantis, Red Hat และ Linux ฯลฯ ได้ทำการเปิดคอร์สสอนอบรมความรู้เรื่องการใช้ระบบ OpenStack ขึ้นมาให้บุคคลทั่วไปตลอดจนแอดมินที่ดูแลระบบได้เข้ามาลงทะเบียนเรียนและสอบเอาใบรับรองความเชี่ยวชาญด้าน OpenStack นี้กลับไป แต่มันกลับกลายเป็นมีข้อจำกัดอยู่ตรงที่ว่า เนื้อหาส่วนใหญ่ที่บริษัทเหล่านี้เอามาสอนครอบคลุมอยู่แค่ Platform ของบริษัทนั้นๆ มิใช่แบบ Open Source เพียวๆ ดังนั้นองค์กร OpenStack Foundation ซึ่งเป็นองค์กรหลักผู้พัฒนาซอฟต์แวร์ Cloud Opensource จึงประกาศกลางงาน OpenStack Summit 2016 ณ เมือง Austin นครรัฐ Texas ในเดือนเมษายน ปี 2016 ว่า จะมีการสอบ OpenStack Certificate ของ OpenStack เองอย่างเป็นทางการภายใต้ชื่อ Certified OpenStack Administrator (COA) ด้วยความเล็งเห็นว่า ในปัจจุบันทักษะ OpenStack กำลังเป็นที่ต้องการสูง

“COA is the first professional certification offered by the OpenStack Foundation. It’s designed to help companies identify top talent in the industry, and help job seekers demonstrate their skills.” – (Openstack.org, n.d.)

(COA คือ ครั้งแรกของการรับรองความเป็นผู้เชี่ยวชาญที่ OpenStack Foundation ออกแบบมาเพื่อช่วยให้บริษัทสามารถระบุความสามารถระดับสูงในแวดวงอุตสาหกรรม และช่วยให้ผู้ที่กำลังมองหางานด้าน OpenStack สามารถโชว์ทักษะของตนได้)

นั่นจึงหมายความว่าบุคคลทั่วไปที่สอบ OpenStack Certificate ผ่านจะได้รับรองความเป็นผู้เชี่ยวชาญด้าน OpenStack สามารถนำใบรับรองความสามารถด้านการดูแลระบบ OpenStack นี้ไปใช้ในการสมัครงานตำแหน่งระดับสูงได้ และในทางเดียวกันหาก OpenStack Admin ที่ทำงานอยู่ในองค์กรใดองค์หนึ่งถือครอง OpenStack Certificate Administrator ก็จะช่วยเพิ่มความน่าเชื่อถือให้กับลูกค้าและเป็นตัวการันตีว่าทีมงานมีคุณภาพตามมาตรฐาน ซึ่งการวัดผลคะแนนผ่านหรือไม่ผ่านนั้น ทาง COA ได้กำหนดไว้ในระเบียบการว่า “passing score of 76 or higher” หมายถึงผู้สอบ OpenStack Certificate Administrator  ต้องทำคะแนนให้ได้มากกว่าหรือเท่า 76 คะแนน

OpenStack และ Docker Container ที่จะกลายเป็นที่นิยม

Data center กับระบบ Virtual Machine หรือ VM เป็นสิ่งคู่กันมานานตั้งแต่อดีต ทว่าด้วยขนาดความใหญ่ของตัว VM และการกินเวลา Deploy นานกว่าจะพร้อมใช้งาน จึงเกิดการพัฒนาเทคโนโลยีใหม่ที่เรียกว่า “Container Technology” ขึ้นมา โดยพื้นฐานก็มาจาก Linux นั่นเอง

จุดเด่นที่ Container มี แต่ Virtual Machine ไม่มี คือ ขนาดที่เล็กและการใช้เวลา Deploy ไม่นาน เพียงแค่ติดตั้ง OS หลักกับ Docker Engine เพื่อใช้ทำงานกับ Container Technology ก็สามารถ Deploy ได้ทันทีแล้ว จึงเป็นเรื่องช่วยไม่ได้ที่เจ้าเทคโนโลยีนี้จะได้รับความนิยม ฮอตฮิตเป็นเป้าความสนใจขึ้นมา

ข้อแตกต่างอีกอย่าง ก็คือ Container นั้นไม่ต้องติดตั้งทับลงบน Hypervisor แล้วติดตั้ง Guest OS ซ้ำซ้อนอีกชั้นเหมือนกับ Virtual Machine แต่แค่ตั้งค่า Bins/Libs ก็สามารถติดตั้ง Application ลงไปได้เลย ทำให้ Container ไม่กินพื้นที่การใช้งานภายใน Data Center มากเท่า VM ตัวอย่างเช่น ถ้าเรามี Container ขนาด 1GB แล้วต้องการเพิ่มจำนวนเป็น 1,000 Container ก็จะไม่ใช่ 1GB x 1000 แบบ VM แต่เป็น 1GB กับขนาดพื้นที่ที่เพิ่มเข้ามาอีกเล็กน้อย (อาจจะเป็นแค่ 1.5 – 2GB)

Docker Container สามารถตอบโจทย์ของยุคนี้ที่ข้อมูลเปลี่ยนแปลงอย่างรวดเร็วได้ดี เพราะสามารถพัฒนาฟีเจอร์หรือเสริม Content ใหม่ๆ ลงไปได้รวดเร็วมากกว่ากว่าการใช้ VM ไม่ต้องมีการหยุด Service แค่สร้าง Application ใหม่แล้วทดสอบใน Environment จำลองว่าสามารถใช้งานได้และไม่ก่อให้เกิด Bug ใดๆ ก็นำไป Deploy ใช้งานจริงได้เลยทันที จึงทำให้เสริมฟีเจอร์ใหม่ๆ ได้เรื่อยๆ โดยไม่กระทบกับระบบหลัก นอกจากนี้ ถ้าต้องการนำ Application ที่มีการพัฒนาอยู่แล้วมาใช้งาน ก็สามารถไปเช็คใน Github แล้วเอามาทดสอบได้อีกด้วย

องค์กรชั้นนำก็ย้ายมาใช้ Container Technology

ด้วยความสะดวกรวดเร็วเหนือชั้นกว่า VM ทั้งทำ Provision ได้รวดเร็ว และ Deploy ได้ไว ส่งผลให้การทำงานร่วมกับข้อมูลจำนวนมหาศาลลุล่วงได้ในระยะเวลาสั้นๆ หลายบริษัทและองค์กรชั้นนำจึงให้ความสนใจหันมาใช้งาน Container Technology กันมากขึ้นเรื่อยๆ Intel เองก็เพิ่งย้ายระบบไปใช้งาน Container Technology เมื่อเร็วๆ นี้

Mr. Ken Proulx ประธานและ CEO ของ OpenRackReady เผยเรื่องที่ Intel ย้ายการใช้บริการจาก VMware มาเป็น OpenStack ซึ่งผลลัพธ์ที่ได้ก็เป็นที่น่าพอใจไม่น้อย เพราะนอกจากจะประหยัดค่าใช้จ่ายแล้วยังได้ประสิทธิภาพการทำงานที่เหนือชั้นกว่าเดิม คือ
ประหยัดค่า License ของ VMware และค่า Maintainance รวมมากถึง 21 ล้านเหรียญ (ราว 700 ล้านบาท)
Provision Server เร็วขึ้น จาก 90 วัน ลดลงเหลือ 30 นาทีเท่านั้น
ลดปริมาณ Server Ticket ลงไป 90%
ทำ Agile, DevOps, Continuous Integration/Continuous Deployment (CI/CD) ได้
ลดเวลาทำ Time-to-Market ของ Application ต่าง ๆ ลงไปมาก
ทำ Self-Service Automation เพื่อสร้าง Server, Storage, Network ได้
ลดเวลารอใช้ IT Infrastructure ของ Developer 90%

จากกรณีของ Intel เราจะเห็นว่าเทคโนโลยี Container ที่แม้จะเป็นเรื่องใหม่สำหรับ Developer อยู่บ้างและต้องใช้เวลาในการศึกษา แต่ก็ส่งผลดีต่อธุรกิจอย่างคุ้มค่าที่จะเรียนรู้ไม่น้อยเลยทีเดียว

 

ศึกษาเพิ่มเติม ได้ที่ งาน Openstack-Container Conference and Workshop 2016