วันศุกร์ที่ 22 พฤษภาคม พ.ศ. 2552

data mining คืออะไร

DATA MINING คืออะไร
Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทำรายงาน และโปรแกรมในการจัดการ ซึ่งเราคุ้นเคยดีกับคำว่า Executive Information System ( EIS ) หรือระบบข้อมูลสำหรับการตัดสินใจในการบริหาร ซึ่งเป็นเครื่องมือชิ้นใหม่ที่สามารถค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่หรือข้อมูลที่เป็นประโยชน์ในการบริหาร ซึ่งเป็นการเพิ่มคุณค่าให้กับฐานข้อมูลที่มีอยู่
ระบบสนับสนุนการตัดสินใจ ( Decision Support System) คือทำอย่างไรให้ข้อมูลที่เรามีอยู่กลายเป็นความรู้อันมีค่าได้สร้างคำตอบของอนาคตได้ ปัจจุบันระบบสนับสนุนข้อมูลในการตัดสินใจได้เข้ามามีอิทธิพลในการรวบรวมข้อมูลและปรับค่าข้อมูลในคลังสินค้า ซึ่งฐานข้อมูลขนาดใหญ่นี้จะประกอบไปด้วยข้อมูลเป็นพันๆ ล้านไบต์ ยากแก่การค้นหาได้อย่างทันกาลด้วยวิธี DBMS ( Database Management System ) โดยทั่วไป ข้อมูลที่เป็นที่สนใจของผู้บริหารธุรกิจวันนี้สามารถจะค้นหาได้ง่ายขึ้นแล้ว ซึ่งจะเป็นประโยชน์อย่างยิ่งในการค้นหาข้อมูลที่ต้องการในมหาสมุทรข้อมูลเพื่อนำมาเทียบเคียงและดูแนวโน้ม และนำข้อมูลที่จำเป็นของบริษัทส่งกลับให้ผู้บริหารตัดสินใจได้อย่างทันกาล นี่คือ จุดประสงค์ของ Data Mining ที่จะมาช่วยในเรื่องของเทคนิคการจัดการข้อมูล ซึ่งได้พยายามและทดสอบแล้วและข้อมูลสนับสนุนที่มีอาจย้อนหลังไปถึง 30 ปี ด้วยเทคนิคเดียวกันนี้เราสามารถใช้ค้นข้อมูลสำคัญที่ปะปนกับข้อมูลอื่น ๆ ในฐานข้อมูลที่ไม่ใช่แค่การสุ่มหา บางคนเรียกว่า KDD ( Knowledge Discovery in Database ) หรือ การค้นหาข้อมูลด้วยความรู้ และนั่นก็คือ Data Mining สำหรับ Philippe Nieuwbourg ( CXP Information ) กล่าวไว้ว่า “ Data Mining คือ เทคนิคที่ผู้ใช้สามารถปฏิบัติการได้โดยอัตโนมัติ กับ ข้อมูลที่ไม่รู้จัก ซึ่งเป็นการเพิ่มคุณค่า ให้กับข้อมูลที่มี”
จากประโยคข้างต้นมีคำอยู่สามคำที่สำคัญ คือ คำแรก “ อัตโนมัติ” คือ กระบวนการทำงานของ Data Mining ซึ่งจะเป็นผู้ทำงานเองไม่ใช่ผู้ใช้กระบวนการจะไม่ให้คำตอบกับปัญหาที่มีแต่จะเป็นศูนย์กลางของข้อมูล คำที่สอง “ข้อมูลที่ไม่รู้จัก” เครื่องมือในการค้นหาใหม่ของ Data Mining ซึ่งจะไม่ค้นหาแต่ข้อมูลเก่าและข้อมูลที่ผู้ใช้ป้อนให้เท่านั้น แต่จะค้นหาข้อมูลใหม่ ๆ ด้วย และสุดท้าย “ เพิ่มคุณค่า ” นั่นหมายถึง ผู้ใช้ไม่ได้เป็นแค่เพียงนักสถิติ แต่เป็นได้ถึงระดับตัดสินใจ
ทำไมจึงต้องมี Data Mining
(1.)ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็จะไม่เกิดประโยชน์ดังนั้นจึงต้องมีการสกัดสารสนเทศ
ไปใช้
การสกัดสารสนเทศ หมายถึง การคัดเลือกข้อมูลออกมาใช้งานในส่วนที่เราต้องการ
(2.)ในอดีตเราใช้คนเป็นผู้สืบค้นข้อมูลต่าง ๆ ในฐานข้อมูลซึ่งผู้สืบค้นจะทำการสร้างเงื่อนไขขึ้นมาตามภูมิปัญญาของผู้สืบค้น
(3.)ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียวอาจไม่ให้ความรู้เพียงพอและลึกซึ้งสำหรับการดำเนินงานภายใต้ภาวะที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่รวดเร็วจึงจำเป็นที่จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “ คลังข้อมูล” ( Data Warehouse)
ดังนั้นเราจึงจำเป็นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูลที่มีขนาดใหญ่ เพื่อที่จะนำข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด
ปัจจัยที่ทำให้ Data Mining เป็นที่ได้รับความนิยม
(1.) จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว
การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ
(2.) ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support System) เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้
(3.) ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ
(4.) การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว
ประเภทข้อมูลที่สามารถทำ Data Mining
(1.) Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย entity-relationship ( ER ) model
(2.) Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ ๆ เดียวกัน
(3.)Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายนั้นซื้อ เป็นต้น
(4.)Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น ข้อมูลแบบ object-oriented , ข้อมูลที่เป็น text file , ข้อมูลมัลติมีเดีย , ข้อมูลในรูปของ web

ลักษณะเฉพาะของข้อมูลที่สามารถทำ Data Mining
(1.) ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการจัดการฐานข้อมูล
(2.) ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจากหลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้น
(3.) ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลงตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึกฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ตลอดเวลาจึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสม
(4.) ข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง

ไม่มีความคิดเห็น:

แสดงความคิดเห็น