การถดถอยใน Excel: สมการตัวอย่าง การถดถอยเชิงเส้น การวิเคราะห์การถดถอย รายงานผลการวิเคราะห์การถดถอยอย่างไร
การวิเคราะห์การถดถอยเป็นหนึ่งในวิธีที่ได้รับความนิยมมากที่สุด การวิจัยทางสถิติ- สามารถใช้เพื่อสร้างระดับอิทธิพลของตัวแปรอิสระต่อตัวแปรตาม Microsoft Excel มีเครื่องมือที่ออกแบบมาเพื่อทำการวิเคราะห์ประเภทนี้ มาดูกันว่ามันคืออะไรและใช้งานอย่างไร
แต่หากต้องการใช้ฟังก์ชันที่ช่วยให้คุณสามารถวิเคราะห์การถดถอยได้ คุณต้องเปิดใช้งานแพ็คเกจการวิเคราะห์ก่อน จากนั้นเครื่องมือที่จำเป็นสำหรับขั้นตอนนี้จะปรากฏบน Ribbon ของ Excel
ตอนนี้เมื่อเราไปที่แท็บ "ข้อมูล"บน Ribbon ในกล่องเครื่องมือ "การวิเคราะห์"เราจะเห็นปุ่มใหม่ - “การวิเคราะห์ข้อมูล”.
ประเภทของการวิเคราะห์การถดถอย
การถดถอยมีหลายประเภท:
- พาราโบลา;
- สงบ;
- ลอการิทึม;
- เลขชี้กำลัง;
- สาธิต;
- ซึ่งเกินความจริง;
- การถดถอยเชิงเส้น
เราจะพูดถึงรายละเอียดเพิ่มเติมเกี่ยวกับการวิเคราะห์การถดถอยประเภทสุดท้ายใน Excel ในภายหลัง
การถดถอยเชิงเส้นใน Excel
ด้านล่างนี้เป็นตารางที่แสดงอุณหภูมิอากาศภายนอกเฉลี่ยรายวันและจำนวนลูกค้าร้านค้าสำหรับวันทำงานที่เกี่ยวข้อง มาดูกันว่าการใช้การวิเคราะห์การถดถอยเป็นอย่างไร สภาพอากาศในรูปของอุณหภูมิอากาศอาจส่งผลต่อการเข้าร่วมงานของสถานประกอบการค้าปลีก
สมการการถดถอยเชิงเส้นทั่วไปมีดังนี้: Y = a0 + a1x1 +…+ akhk ในสูตรนี้ ยหมายถึง ตัวแปร อิทธิพลของปัจจัยที่เราพยายามศึกษา ในกรณีของเรา นี่คือจำนวนผู้ซื้อ ความหมาย xเป็นปัจจัยต่างๆ ที่มีอิทธิพลต่อตัวแปร ตัวเลือก กเป็นค่าสัมประสิทธิ์การถดถอย นั่นคือพวกเขาคือผู้กำหนดความสำคัญของปัจจัยเฉพาะ. ดัชนี เคหมายถึงจำนวนรวมของปัจจัยเดียวกันนี้
การวิเคราะห์ผลการวิเคราะห์
ผลลัพธ์ของการวิเคราะห์การถดถอยจะแสดงในรูปแบบของตารางในตำแหน่งที่ระบุในการตั้งค่า
หนึ่งในตัวชี้วัดหลักก็คือ R-สแควร์- มันบ่งบอกถึงคุณภาพของแบบจำลอง ในกรณีของเรา ค่าสัมประสิทธิ์นี้คือ 0.705 หรือประมาณ 70.5% ซึ่งเป็นระดับคุณภาพที่ยอมรับได้ การพึ่งพาน้อยกว่า 0.5 ถือว่าไม่ดี
ตัวบ่งชี้ที่สำคัญอีกประการหนึ่งอยู่ในเซลล์ที่จุดตัดของเส้น "แยก Y"และคอลัมน์ "อัตราต่อรอง"- สิ่งนี้บ่งชี้ว่าค่า Y จะมีค่าเท่าใด และในกรณีของเรา นี่คือจำนวนผู้ซื้อ โดยมีปัจจัยอื่นๆ ทั้งหมดเท่ากับศูนย์ ในตารางนี้ ค่านี้คือ 58.04
ค่าที่จุดตัดของกราฟ "ตัวแปร X1"และ "อัตราต่อรอง"แสดงระดับการขึ้นต่อกันของ Y บน X ในกรณีของเรา นี่คือระดับการขึ้นต่อกันของจำนวนลูกค้าร้านค้าตามอุณหภูมิ ค่าสัมประสิทธิ์ 1.31 ถือเป็นตัวบ่งชี้อิทธิพลที่ค่อนข้างสูง
อย่างที่คุณเห็น การใช้ Microsoft Excel การสร้างตารางการวิเคราะห์การถดถอยนั้นค่อนข้างง่าย แต่มีเพียงผู้ที่ได้รับการฝึกอบรมเท่านั้นที่สามารถทำงานกับข้อมูลเอาต์พุตและเข้าใจสาระสำคัญของมันได้
การวิเคราะห์การถดถอย
การถดถอย (เชิงเส้น) การวิเคราะห์- วิธีทางสถิติสำหรับศึกษาอิทธิพลของตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไปที่มีต่อตัวแปรตาม ตัวแปรอิสระเรียกอีกอย่างว่าตัวถดถอยหรือตัวทำนาย และตัวแปรตามเรียกว่าตัวแปรเกณฑ์ คำศัพท์เฉพาะทาง ขึ้นอยู่กับและ เป็นอิสระตัวแปรสะท้อนถึงการพึ่งพาทางคณิตศาสตร์ของตัวแปรเท่านั้น ( ดูความสัมพันธ์ที่ผิดพลาด) มากกว่าความสัมพันธ์ระหว่างเหตุและผล
เป้าหมายของการวิเคราะห์การถดถอย
- การกำหนดระดับการกำหนดความแปรผันของตัวแปรเกณฑ์ (ตาม) โดยตัวทำนาย (ตัวแปรอิสระ)
- การทำนายค่าของตัวแปรตามโดยใช้ตัวแปรอิสระ
- การกำหนดการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวต่อการแปรผันของตัวแปรตาม
การวิเคราะห์การถดถอยไม่สามารถใช้เพื่อระบุได้ว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ เนื่องจากการมีความสัมพันธ์ดังกล่าวเป็นข้อกำหนดเบื้องต้นสำหรับการนำการวิเคราะห์ไปใช้
คำจำกัดความทางคณิตศาสตร์ของการถดถอย
ความสัมพันธ์แบบถดถอยอย่างเคร่งครัดสามารถกำหนดได้ดังนี้ อนุญาต เป็นตัวแปรสุ่มที่มีการแจกแจงความน่าจะเป็นร่วมกันที่กำหนด หากสำหรับแต่ละชุดของค่าจะมีการกำหนดค่าความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไข
(สมการถดถอยในรูปแบบทั่วไป)จากนั้นจึงเรียกใช้ฟังก์ชัน การถดถอยค่าของ Y ตามค่าและกราฟของมันคือ เส้นถดถอยโดย หรือ สมการถดถอย.
การพึ่งพานั้นปรากฏในการเปลี่ยนแปลงของค่าเฉลี่ยของ Y โดยมีการเปลี่ยนแปลงใน แม้ว่าสำหรับชุดค่าคงที่แต่ละชุด ค่ายังคงเป็นตัวแปรสุ่มที่มีการกระเจิงที่แน่นอน
เพื่อชี้แจงคำถามว่าการวิเคราะห์การถดถอยแม่นยำเพียงใดประมาณการเปลี่ยนแปลงใน Y เมื่อเปลี่ยนแปลง จะใช้ค่าเฉลี่ยของการกระจายตัวของ Y สำหรับชุดค่าต่างๆ (อันที่จริงเรากำลังพูดถึงการวัดการกระจายตัวของตัวแปรตาม รอบเส้นถดถอย)
วิธีกำลังสองน้อยที่สุด (การคำนวณสัมประสิทธิ์)
ในทางปฏิบัติ เส้นการถดถอยมักถูกค้นหาในรูปแบบของฟังก์ชันเชิงเส้น (การถดถอยเชิงเส้น) ซึ่งจะประมาณเส้นโค้งที่ต้องการได้ดีที่สุด วิธีนี้ทำได้โดยใช้วิธีกำลังสองน้อยที่สุด เมื่อผลรวมของค่าเบี่ยงเบนกำลังสองของค่าที่สังเกตได้จริงจากการประมาณค่ามีค่าลดลง (หมายถึงค่าประมาณโดยใช้เส้นตรงที่แสดงถึงความสัมพันธ์ของการถดถอยที่ต้องการ):
(M - ขนาดตัวอย่าง) วิธีการนี้มีพื้นฐานมาจาก ความจริงที่รู้ว่าจำนวนเงินที่ปรากฏในนิพจน์ข้างต้นถือเป็นค่าต่ำสุดสำหรับกรณีที่
เพื่อแก้ปัญหาการวิเคราะห์การถดถอยโดยใช้วิธีกำลังสองน้อยที่สุด แนวคิดนี้จึงถูกนำมาใช้ ฟังก์ชั่นที่เหลือ:
เงื่อนไขขั้นต่ำสำหรับฟังก์ชันที่เหลือ:
ระบบผลลัพธ์ก็คือระบบ สมการเชิงเส้นกับคนไม่รู้จัก
ถ้าเราแทนพจน์อิสระทางด้านซ้ายของสมการในรูปเมทริกซ์
และค่าสัมประสิทธิ์ของสิ่งที่ไม่ทราบทางด้านขวาคือเมทริกซ์
จากนั้นเราจะได้สมการเมทริกซ์: ซึ่งแก้ได้ง่าย ๆ ด้วยวิธีเกาส์ เมทริกซ์ที่ได้จะเป็นเมทริกซ์ที่มีค่าสัมประสิทธิ์ของสมการเส้นถดถอย:
เพื่อให้ได้ค่าประมาณที่ดีที่สุด จำเป็นต้องปฏิบัติตามเงื่อนไขเบื้องต้นของ OLS (เงื่อนไข Gauss–Markov) ในวรรณคดีอังกฤษ การประมาณค่าดังกล่าวเรียกว่า BLUE (Best Linear Unbiased Estimators)
การตีความพารามิเตอร์การถดถอย
พารามิเตอร์เหล่านี้เป็นค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน ถูกตีความว่าเป็นสัดส่วนของความแปรปรวนของ Y อธิบายโดยการกำหนดอิทธิพลของตัวทำนายที่เหลือนั่นคือมันวัดการมีส่วนร่วมของแต่ละบุคคลต่อคำอธิบายของ Y ในกรณีของตัวทำนายที่สัมพันธ์กันปัญหาความไม่แน่นอนในการประมาณการเกิดขึ้น ซึ่งขึ้นอยู่กับลำดับที่ตัวทำนายรวมอยู่ในแบบจำลอง ในกรณีเช่นนี้ มีความจำเป็นต้องใช้วิธีวิเคราะห์สหสัมพันธ์และการถดถอยแบบขั้นตอน
เมื่อพูดถึงโมเดลแบบไม่เชิงเส้นของการวิเคราะห์การถดถอย สิ่งสำคัญคือต้องใส่ใจว่าเรากำลังพูดถึงความไม่เชิงเส้นในตัวแปรอิสระ (จากมุมมองที่เป็นทางการ ลดลงจนกลายเป็นการถดถอยเชิงเส้นได้ง่าย) หรือเกี่ยวกับความไม่เชิงเส้นในพารามิเตอร์ที่ประมาณไว้ (ทำให้เกิดปัญหาร้ายแรง ความยุ่งยากในการคำนวณ) ในกรณีที่ความไม่เชิงเส้นของประเภทแรกจากมุมมองที่สำคัญ สิ่งสำคัญคือต้องเน้นลักษณะที่ปรากฏในรูปแบบของเงื่อนไขของแบบฟอร์ม , บ่งบอกถึงการมีอยู่ของการโต้ตอบระหว่างคุณลักษณะ ฯลฯ (ดู Multicollinearity)
ดูเพิ่มเติม
ลิงค์
- www.kgafk.ru - การบรรยายในหัวข้อ “การวิเคราะห์การถดถอย”
- www.basegroup.ru - วิธีการเลือกตัวแปรในแบบจำลองการถดถอย
วรรณกรรม
- นอร์แมน เดรเปอร์, แฮร์รี สมิธการวิเคราะห์การถดถอยแบบประยุกต์ การถดถอยหลายครั้ง= การวิเคราะห์การถดถอยประยุกต์ - ฉบับที่ 3 - อ.: “วิภาษวิธี”, 2550. - หน้า 912. - ISBN 0-471-17082-8
- วิธีที่มีประสิทธิภาพในการประมาณค่าแบบจำลองทางสถิติ: เอกสารประกอบ - K.: PP "Sansparel", 2005. - หน้า 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
- รัดเชนโก สตานิสลาฟ กริกอรีวิชวิธีการวิเคราะห์การถดถอย: เอกสาร - K.: "Korniychuk", 2011. - หน้า 376. - ISBN 978-966-7599-72-0
มูลนิธิวิกิมีเดีย
2010.การวิเคราะห์การถดถอย วิธีการสร้างแบบจำลองข้อมูลที่วัดได้และศึกษาคุณสมบัติของข้อมูลเหล่านั้น ข้อมูลประกอบด้วยคู่ของค่าตัวแปรตาม (ตัวแปรการตอบสนอง) และตัวแปรอิสระ
(ตัวแปรอธิบาย) โมเดลการถดถอยเป็นฟังก์ชันของตัวแปรอิสระและพารามิเตอร์ที่มีตัวแปรสุ่มเพิ่มเข้าไป พารามิเตอร์โมเดลได้รับการปรับเพื่อให้โมเดลเหมาะสมกับข้อมูลมากที่สุด เกณฑ์สำหรับคุณภาพของการประมาณ (ฟังก์ชันวัตถุประสงค์) มักจะเป็นค่าคลาดเคลื่อนกำลังสองเฉลี่ยรูต: ผลรวมของกำลังสองของความแตกต่างระหว่างค่าของแบบจำลองและตัวแปรตามสำหรับค่าทั้งหมดของตัวแปรอิสระเป็น การโต้แย้ง. สาขาการวิเคราะห์การถดถอยของสถิติทางคณิตศาสตร์และการเรียนรู้ของเครื่อง สันนิษฐานว่าตัวแปรตามคือผลรวมของค่าของบางรุ่นและตัวแปรสุ่ม มีการตั้งสมมติฐานเกี่ยวกับธรรมชาติของการกระจายของปริมาณนี้ เรียกว่าสมมติฐานการสร้างข้อมูล การทดสอบทางสถิติที่เรียกว่าการวิเคราะห์สารตกค้างจะดำเนินการเพื่อยืนยันหรือหักล้างสมมติฐานนี้ สันนิษฐานว่าตัวแปรอิสระไม่มีข้อผิดพลาด การวิเคราะห์การถดถอยใช้สำหรับการพยากรณ์ การวิเคราะห์อนุกรมเวลา การทดสอบสมมติฐาน และการระบุความสัมพันธ์ที่ซ่อนอยู่ในข้อมูล
คำจำกัดความของการวิเคราะห์การถดถอย
ตัวอย่างอาจไม่ใช่ฟังก์ชันแต่เป็นความสัมพันธ์ ตัวอย่างเช่น ข้อมูลสำหรับการสร้างการถดถอยอาจเป็นดังนี้: ในตัวอย่างดังกล่าว ค่าตัวแปรหนึ่งค่าจะสอดคล้องกับค่าตัวแปรหลายค่า
การถดถอยเชิงเส้น
การถดถอยเชิงเส้นถือว่าฟังก์ชันขึ้นอยู่กับพารามิเตอร์เชิงเส้นตรง ในกรณีนี้ ไม่จำเป็นต้องพึ่งพาเชิงเส้นกับตัวแปรอิสระ
ในกรณีที่ฟังก์ชันการถดถอยเชิงเส้นมีรูปแบบ
นี่คือส่วนประกอบของเวกเตอร์
เรียกความแตกต่างระหว่างค่าจริงของตัวแปรตามและค่าที่สร้างขึ้นใหม่ สารตกค้างจากการถดถอย(สารตกค้าง). คำพ้องความหมายยังใช้ในวรรณคดี: สารตกค้างและ ข้อผิดพลาด- หนึ่งในการประเมินที่สำคัญของเกณฑ์คุณภาพของการพึ่งพาที่ได้รับคือผลรวมของกำลังสองของส่วนที่เหลือ:
นี่คือผลรวมของข้อผิดพลาด Squared
ความแปรปรวนของปริมาณคงเหลือคำนวณโดยใช้สูตร
ที่นี่ Mean Square Error, root หมายถึงข้อผิดพลาดกำลังสองเฉลี่ย
กราฟแสดงตัวอย่างซึ่งระบุด้วยจุดสีน้ำเงิน และความสัมพันธ์แบบถดถอยซึ่งระบุด้วยเส้นทึบ ตัวแปรอิสระจะถูกพล็อตตามแกน Abscissa และตัวแปรตามจะถูกพล็อตไปตามแกนพิกัด การขึ้นต่อกันทั้งสามรายการเป็นแบบเส้นตรงโดยสัมพันธ์กับพารามิเตอร์
การถดถอยแบบไม่เชิงเส้น
ตัวแบบการถดถอยแบบไม่เชิงเส้น - ตัวแบบของแบบฟอร์ม
ซึ่งไม่สามารถแสดงเป็นผลคูณสเกลาร์ได้
โดยที่พารามิเตอร์ของแบบจำลองการถดถอยคือตัวแปรอิสระจากปริภูมิคือตัวแปรตาม - ตัวแปรสุ่มและเป็นฟังก์ชันจากเซตที่กำหนดบางเซต
ค่าพารามิเตอร์ในกรณีของการถดถอยแบบไม่เชิงเส้นจะพบได้โดยใช้วิธีการไล่ระดับสีแบบไล่ระดับ เช่น อัลกอริธึม Levenberg-Marquardt
เกี่ยวกับเงื่อนไข
คำว่า "การถดถอย" ได้รับการประกาศเกียรติคุณโดยฟรานซิส กัลตันเมื่อปลายศตวรรษที่ 19 กัลตันค้นพบว่าลูกของพ่อแม่ที่มีรูปร่างสูงหรือเตี้ยมักจะไม่ได้รับส่วนสูงที่โดดเด่น และเรียกปรากฏการณ์นี้ว่า "การถดถอยสู่ความธรรมดา" ในตอนแรกคำนี้ใช้เฉพาะในแง่ทางชีวภาพเท่านั้น หลังจากงานของคาร์ล เพียร์สัน คำนี้เริ่มถูกนำมาใช้ในสถิติ
ในวรรณกรรมทางสถิติ มีการแยกแยะความแตกต่างระหว่างการถดถอยที่เกี่ยวข้องกับตัวแปรอิสระหนึ่งตัว และการถดถอยที่เกี่ยวข้องกับตัวแปรอิสระหลายตัว มิติเดียวและ หลายมิติการถดถอย สันนิษฐานว่าเราใช้ตัวแปรอิสระหลายตัว นั่นคือเวกเตอร์ตัวแปรอิสระ ในกรณีพิเศษ เมื่อตัวแปรอิสระเป็นสเกลาร์ ตัวแปรนั้นจะเขียนแทนด้วย แยกแยะ เชิงเส้นและ ไม่เชิงเส้นการถดถอย ถ้าแบบจำลองการถดถอยไม่ใช่การรวมฟังก์ชันเชิงเส้นของพารามิเตอร์ จะถือว่าเป็นการถดถอยแบบไม่เชิงเส้น ในกรณีนี้ โมเดลสามารถเป็นฟังก์ชันซ้อนทับโดยพลการจากชุดบางชุดได้ โมเดลไม่เชิงเส้นเป็นแบบเอ็กซ์โปเนนเชียล ตรีโกณมิติ และอื่นๆ (เช่น ฟังก์ชันพื้นฐานแนวรัศมีหรือเพอร์เซปตรอน Rosenblatt) ซึ่งถือว่าความสัมพันธ์ระหว่างพารามิเตอร์และตัวแปรตามเป็นแบบไม่เชิงเส้น
แยกแยะ พารามิเตอร์และ ไม่ใช่พารามิเตอร์การถดถอย เป็นการยากที่จะวาดเส้นแบ่งที่เข้มงวดระหว่างการถดถอยทั้งสองประเภทนี้ ขณะนี้ยังไม่มีเกณฑ์ที่ยอมรับโดยทั่วไปในการแยกแยะโมเดลประเภทหนึ่งจากอีกรุ่นหนึ่ง ตัวอย่างเช่น โมเดลเชิงเส้นถือเป็นพารามิเตอร์ และแบบจำลองที่มีการหาค่าเฉลี่ยของตัวแปรตามเหนือสเปซของตัวแปรอิสระนั้นไม่ใช่พารามิเตอร์ ตัวอย่างของแบบจำลองการถดถอยแบบพาราเมตริก: ตัวทำนายเชิงเส้น เพอร์เซพตรอนหลายชั้น ตัวอย่างแบบจำลองการถดถอยแบบผสม: ฟังก์ชันพื้นฐานแนวรัศมี โมเดลแบบไม่มีพารามิเตอร์เคลื่อนที่โดยเฉลี่ยในหน้าต่างที่มีความกว้างระดับหนึ่ง โดยทั่วไป การถดถอยแบบไม่มีพารามิเตอร์แตกต่างจากการถดถอยแบบอิงพารามิเตอร์ตรงที่ตัวแปรตามไม่ได้ขึ้นอยู่กับค่าหนึ่งของตัวแปรอิสระ แต่ขึ้นอยู่กับย่านใกล้เคียงที่ระบุของค่านี้
มีความแตกต่างระหว่างคำว่า "การประมาณฟังก์ชัน" "การประมาณ" "การประมาณค่า" และ "การถดถอย" มันเป็นดังนี้
การประมาณฟังก์ชันมีการกำหนดฟังก์ชันของอาร์กิวเมนต์แบบไม่ต่อเนื่องหรือต่อเนื่อง จำเป็นต้องค้นหาฟังก์ชันจากตระกูลพาราเมตริกบางกลุ่ม เช่น ในกลุ่มพหุนามพีชคณิตในระดับที่กำหนด พารามิเตอร์ฟังก์ชันต้องมีฟังก์ชันบางอย่างขั้นต่ำ เช่น
ภาคเรียน การประมาณคำพ้องความหมายสำหรับคำว่า "การประมาณฟังก์ชัน" มันถูกใช้บ่อยกว่าเมื่อเราพูดถึงฟังก์ชันที่กำหนด ซึ่งเป็นฟังก์ชันของการโต้แย้งที่ไม่ต่อเนื่อง ในที่นี้ คุณจะต้องค้นหาฟังก์ชันที่ส่งผ่านจุดใกล้เคียงที่สุดของฟังก์ชันที่กำหนดมากที่สุดด้วย นี่เป็นการแนะนำแนวคิด สารตกค้างระยะห่างระหว่างจุดของฟังก์ชันต่อเนื่องกับจุดที่สอดคล้องกันของฟังก์ชันอาร์กิวเมนต์แบบไม่ต่อเนื่อง
การแก้ไขทำหน้าที่เป็นกรณีพิเศษของปัญหาการประมาณ เมื่อจำเป็นต้องเรียก ณ จุดใดจุดหนึ่ง โหนดการแก้ไขค่าของฟังก์ชันและฟังก์ชันที่ใกล้เคียงกัน โดยทั่วไปแล้ว จะมีการจำกัดมูลค่าของอนุพันธ์บางอย่างของอนุพันธ์ นั่นคือมีการกำหนดฟังก์ชันของการโต้แย้งแบบแยกส่วน จำเป็นต้องค้นหาฟังก์ชันที่ผ่านทุกจุด ในกรณีนี้มักจะไม่ใช้เมตริก แต่มักจะแนะนำแนวคิดเรื่อง "ความราบรื่น" ของฟังก์ชันที่ต้องการ
การวิเคราะห์การถดถอยเป็นวิธีการสร้างการแสดงออกเชิงวิเคราะห์สำหรับการพึ่งพาสุ่มระหว่างคุณลักษณะภายใต้การศึกษา สมการถดถอยแสดงให้เห็นว่าค่าเฉลี่ยเปลี่ยนแปลงไปอย่างไร ที่เมื่อมีการเปลี่ยนแปลงใดๆ x ฉัน , และมีรูปแบบดังนี้
ที่ไหน คุณ -ตัวแปรตาม (จะเหมือนกันเสมอ);
เอ็กซ์ ฉัน - ตัวแปรอิสระ (ปัจจัย) (อาจมีหลายตัว)
หากมีตัวแปรอิสระเพียงตัวเดียว นี่เป็นการวิเคราะห์การถดถอยอย่างง่าย หากมีหลายอัน ( n 2), การวิเคราะห์ดังกล่าวเรียกว่าหลายปัจจัย
การวิเคราะห์การถดถอยช่วยแก้ปัญหาหลักสองประการ:
การสร้างสมการถดถอย เช่น ค้นหาความสัมพันธ์ระหว่างตัวบ่งชี้ผลลัพธ์กับปัจจัยอิสระ x 1 , x 2 , …, x n .
การประเมินความสำคัญของสมการผลลัพธ์เช่น การกำหนดลักษณะเฉพาะของปัจจัยที่เลือกไว้จะอธิบายความแปรผันของคุณลักษณะได้มากน้อยเพียงใด
คุณ
การวิเคราะห์การถดถอยส่วนใหญ่จะใช้เพื่อการวางแผน เช่นเดียวกับการพัฒนากรอบการกำกับดูแล
ต่างจากการวิเคราะห์สหสัมพันธ์ซึ่งจะตอบคำถามว่าคุณลักษณะที่วิเคราะห์มีความสัมพันธ์กันหรือไม่ การวิเคราะห์การถดถอยยังให้การแสดงออกที่เป็นทางการอีกด้วย นอกจากนี้ หากการวิเคราะห์ความสัมพันธ์ศึกษาความสัมพันธ์ใดๆ ระหว่างปัจจัย การวิเคราะห์การถดถอยจะศึกษาการพึ่งพาด้านเดียว เช่น ความเชื่อมโยงที่แสดงให้เห็นว่าการเปลี่ยนแปลงในลักษณะปัจจัยส่งผลต่อคุณลักษณะที่มีประสิทธิผลอย่างไร xการวิเคราะห์การถดถอยเป็นหนึ่งในวิธีการทางสถิติทางคณิตศาสตร์ที่ได้รับการพัฒนามากที่สุด พูดอย่างเคร่งครัด ในการใช้การวิเคราะห์การถดถอย จำเป็นต้องปฏิบัติตามข้อกำหนดพิเศษจำนวนหนึ่ง (โดยเฉพาะ ล 2 ,x n ;,...,เอ็กซ์ย จะต้องเป็นอิสระ ตัวแปรสุ่มแบบกระจายปกติที่มีความแปรปรวนคงที่) ในชีวิตจริง
การปฏิบัติตามข้อกำหนดการวิเคราะห์การถดถอยและสหสัมพันธ์อย่างเข้มงวดนั้นหาได้ยากมาก แต่ทั้งสองวิธีนี้พบได้ทั่วไปในการวิจัยทางเศรษฐศาสตร์ การพึ่งพาทางเศรษฐศาสตร์ไม่เพียงแต่เกิดขึ้นโดยตรงเท่านั้น แต่ยังเป็นแบบผกผันและไม่เชิงเส้นอีกด้วย แบบจำลองการถดถอยสามารถสร้างขึ้นได้เมื่อมีการพึ่งพาใด ๆ อย่างไรก็ตามในการวิเคราะห์หลายตัวแปรจะใช้เฉพาะแบบจำลองเชิงเส้นของแบบฟอร์มเท่านั้น:
สมการการถดถอยถูกสร้างขึ้นตามกฎโดยใช้วิธีกำลังสองน้อยที่สุดซึ่งสาระสำคัญคือการลดผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของลักษณะผลลัพธ์จากค่าที่คำนวณได้นั่นคือ: ที่ไหนที -
จำนวนการสังเกต =เจ 1 x 1 จำนวนการสังเกต ก+ข 2 x 2 จำนวนการสังเกต +ข n เอ็กซ์ n จำนวนการสังเกต - + ... + ข
ค่าที่คำนวณได้ของปัจจัยผลลัพธ์ ขอแนะนำให้กำหนดค่าสัมประสิทธิ์การถดถอยโดยใช้แพ็คเกจการวิเคราะห์สำหรับคอมพิวเตอร์ส่วนบุคคลหรือเครื่องคำนวณทางการเงินแบบพิเศษ ในกรณีที่ง่ายที่สุด ค่าสัมประสิทธิ์การถดถอยของสมการการถดถอยเชิงเส้นแบบปัจจัยเดียวของแบบฟอร์ม y = a + bx
สามารถพบได้โดยใช้สูตร:
การวิเคราะห์กลุ่มเป็นหนึ่งในวิธีการวิเคราะห์หลายมิติที่มีไว้สำหรับการจัดกลุ่ม (การจัดกลุ่ม) ประชากรที่มีองค์ประกอบที่มีลักษณะเฉพาะหลายประการ ค่าของแต่ละคุณลักษณะทำหน้าที่เป็นพิกัดของแต่ละหน่วยของประชากรที่กำลังศึกษาในพื้นที่หลายมิติของคุณลักษณะ การสังเกตแต่ละครั้งซึ่งโดดเด่นด้วยค่าของตัวบ่งชี้หลายตัวสามารถแสดงเป็นจุดในช่องว่างของตัวบ่งชี้เหล่านี้ซึ่งค่าดังกล่าวถือเป็นพิกัดในพื้นที่หลายมิติ ระยะห่างระหว่างจุด รและ ถามกับ เคพิกัดถูกกำหนดเป็น:
เกณฑ์หลักสำหรับการจัดกลุ่มคือความแตกต่างระหว่างคลัสเตอร์ควรมีนัยสำคัญมากกว่าการสังเกตที่กำหนดให้กับคลัสเตอร์เดียวกัน กล่าวคือ ในพื้นที่หลายมิติจะต้องสังเกตความไม่เท่าเทียมกันดังต่อไปนี้:
สมการการถดถอยถูกสร้างขึ้นตามกฎโดยใช้วิธีกำลังสองน้อยที่สุดซึ่งสาระสำคัญคือการลดผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของลักษณะผลลัพธ์จากค่าที่คำนวณได้นั่นคือ: ร 1, 2 - ระยะห่างระหว่างกระจุก 1 และ 2
เช่นเดียวกับขั้นตอนการวิเคราะห์การถดถอย ขั้นตอนการจัดกลุ่มค่อนข้างใช้แรงงานมาก ขอแนะนำให้ดำเนินการบนคอมพิวเตอร์
การวิเคราะห์การถดถอยและสหสัมพันธ์เป็นวิธีการวิจัยทางสถิติ นี่เป็นวิธีทั่วไปในการแสดงการขึ้นต่อกันของพารามิเตอร์กับตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไป
ด้านล่างนี้ เราจะพิจารณาการวิเคราะห์ทั้งสองที่ได้รับความนิยมมากในหมู่นักเศรษฐศาสตร์โดยใช้ตัวอย่างเชิงปฏิบัติที่เฉพาะเจาะจง เราจะยกตัวอย่างการรับผลลัพธ์เมื่อรวมเข้าด้วยกัน
การวิเคราะห์การถดถอยใน Excel
แสดงอิทธิพลของค่าบางค่า (อิสระ, อิสระ) ต่อตัวแปรตาม ตัวอย่างเช่น จำนวนประชากรที่ทำงานเชิงเศรษฐกิจขึ้นอยู่กับจำนวนวิสาหกิจ ค่าจ้าง และพารามิเตอร์อื่นๆ อย่างไร หรือ: การลงทุนในต่างประเทศ ราคาพลังงาน ฯลฯ ส่งผลต่อระดับ GDP อย่างไร
ผลลัพธ์ของการวิเคราะห์ทำให้คุณสามารถเน้นลำดับความสำคัญได้ และขึ้นอยู่กับปัจจัยหลัก คาดการณ์ วางแผนการพัฒนาพื้นที่ที่มีความสำคัญ และตัดสินใจของฝ่ายบริหาร
การถดถอยเกิดขึ้น:
- เชิงเส้น (y = a + bx);
- พาราโบลา (y = a + bx + cx 2);
- เอ็กซ์โปเนนเชียล (y = a * exp(bx));
- กำลัง (y = a*x^b);
- ไฮเปอร์โบลิก (y = b/x + a);
- ลอการิทึม (y = b * 1n(x) + a);
- เอ็กซ์โปเนนเชียล (y = a * b^x)
มาดูตัวอย่างการสร้างแบบจำลองการถดถอยใน Excel และตีความผลลัพธ์ ลองใช้รูปแบบการถดถอยเชิงเส้นกัน
งาน. ที่ 6 องค์กร โดยเฉลี่ยต่อเดือน ค่าจ้างและจำนวนพนักงานที่ลาออก มีความจำเป็นต้องกำหนดการพึ่งพาจำนวนพนักงานที่ลาออกจากเงินเดือนโดยเฉลี่ย
โมเดลการถดถอยเชิงเส้นมีลักษณะดังนี้:
Y = a 0 + a 1 x 1 +…+akxk
โดยที่ a คือสัมประสิทธิ์การถดถอย x มีอิทธิพลต่อตัวแปร k คือจำนวนตัวประกอบ
ในตัวอย่างของเรา Y คือตัวบ่งชี้การลาออกจากพนักงาน ปัจจัยที่มีอิทธิพลคือค่าจ้าง (x)
Excel มีฟังก์ชันในตัวที่สามารถช่วยคุณคำนวณพารามิเตอร์ของตัวแบบการถดถอยเชิงเส้นได้ แต่ส่วนเสริม “แพ็คเกจการวิเคราะห์” จะดำเนินการได้เร็วกว่า
เราเปิดใช้งานเครื่องมือวิเคราะห์อันทรงพลัง:
เมื่อเปิดใช้งานแล้ว ส่วนเสริมจะพร้อมใช้งานในแท็บข้อมูล
ทีนี้มาวิเคราะห์การถดถอยกันดีกว่า
ก่อนอื่น เราสนใจเรื่อง R-squared และสัมประสิทธิ์
R-squared คือสัมประสิทธิ์การตัดสินใจ ในตัวอย่างของเรา – 0.755 หรือ 75.5% ซึ่งหมายความว่าพารามิเตอร์ที่คำนวณได้ของแบบจำลองจะอธิบายความสัมพันธ์ระหว่างพารามิเตอร์ที่ศึกษาได้ถึง 75.5% ยิ่งค่าสัมประสิทธิ์การตัดสินใจสูง โมเดลก็จะยิ่งดีขึ้น ดี - สูงกว่า 0.8 แย่ – น้อยกว่า 0.5 (การวิเคราะห์ดังกล่าวแทบจะไม่ถือว่าสมเหตุสมผล) ในตัวอย่างของเรา - “ไม่เลว”
ค่าสัมประสิทธิ์ 64.1428 แสดงให้เห็นว่า Y จะเป็นเท่าใดหากตัวแปรทั้งหมดในแบบจำลองที่กำลังพิจารณามีค่าเท่ากับ 0 กล่าวคือ ค่าของพารามิเตอร์ที่วิเคราะห์ยังได้รับอิทธิพลจากปัจจัยอื่นๆ ที่ไม่ได้อธิบายไว้ในแบบจำลองด้วย
ค่าสัมประสิทธิ์ -0.16285 แสดงน้ำหนักของตัวแปร X บน Y นั่นคือเงินเดือนเฉลี่ยต่อเดือนภายในแบบจำลองนี้ส่งผลต่อจำนวนผู้เลิกบุหรี่ที่มีน้ำหนัก -0.16285 (ซึ่งมีอิทธิพลเพียงเล็กน้อย) เครื่องหมาย "-" หมายถึง อิทธิพลเชิงลบ: ยิ่งเงินเดือนสูงคนลาออกก็น้อยลง ซึ่งเป็นเรื่องยุติธรรม
การวิเคราะห์ความสัมพันธ์ใน Excel
การวิเคราะห์สหสัมพันธ์ช่วยพิจารณาว่ามีความสัมพันธ์ระหว่างตัวบ่งชี้ในหนึ่งหรือสองตัวอย่าง ตัวอย่างเช่น ระหว่างเวลาการทำงานของเครื่องจักรกับค่าซ่อม ราคาของอุปกรณ์และระยะเวลาการใช้งาน ส่วนสูงและน้ำหนักของเด็ก เป็นต้น
หากมีการเชื่อมต่อ การเพิ่มขึ้นของพารามิเตอร์ตัวหนึ่งจะนำไปสู่การเพิ่มขึ้น (ความสัมพันธ์เชิงบวก) หรือการลดลง (เชิงลบ) ของอีกพารามิเตอร์หนึ่ง การวิเคราะห์สหสัมพันธ์ช่วยให้นักวิเคราะห์พิจารณาว่าสามารถใช้ค่าของตัวบ่งชี้ตัวใดตัวหนึ่งในการทำนายได้หรือไม่ ความหมายที่เป็นไปได้อื่น.
ค่าสัมประสิทธิ์สหสัมพันธ์แสดงโดย r แตกต่างกันไปตั้งแต่ +1 ถึง -1 การจำแนกความสัมพันธ์สำหรับ พื้นที่ที่แตกต่างกันจะแตกต่างออกไป เมื่อค่าสัมประสิทธิ์เป็น 0 จะไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวอย่าง
มาดูวิธีการหาค่าสัมประสิทธิ์สหสัมพันธ์โดยใช้ Excel
หากต้องการค้นหาค่าสัมประสิทธิ์ที่จับคู่ จะใช้ฟังก์ชัน CORREL
วัตถุประสงค์: พิจารณาว่ามีความสัมพันธ์ระหว่างเวลาการทำงานของเครื่องกลึงกับต้นทุนการบำรุงรักษาหรือไม่
วางเคอร์เซอร์ในเซลล์ใดก็ได้แล้วกดปุ่ม fx
- ในหมวดหมู่ "สถิติ" ให้เลือกฟังก์ชัน CORREL
- อาร์กิวเมนต์ “อาร์เรย์ 1” - ช่วงแรกของค่า – เวลาการทำงานของเครื่อง: A2:A14
- อาร์กิวเมนต์ "อาร์เรย์ 2" - ค่าช่วงที่สอง – ค่าซ่อม: B2:B14 คลิกตกลง
ในการกำหนดประเภทของการเชื่อมต่อคุณต้องดูจำนวนสัมประสิทธิ์สัมประสิทธิ์ที่แน่นอน (แต่ละกิจกรรมมีสเกลของตัวเอง)
สำหรับการวิเคราะห์ความสัมพันธ์ของพารามิเตอร์หลายตัว (มากกว่า 2 ตัว) จะสะดวกกว่าถ้าใช้ "การวิเคราะห์ข้อมูล" (โปรแกรมเสริม "แพ็คเกจการวิเคราะห์") คุณต้องเลือกความสัมพันธ์จากรายการและกำหนดอาร์เรย์ ทั้งหมด.
ค่าสัมประสิทธิ์ผลลัพธ์จะแสดงในเมทริกซ์สหสัมพันธ์ แบบนี้:
การวิเคราะห์สหสัมพันธ์และการถดถอย
ในทางปฏิบัติทั้งสองเทคนิคนี้มักใช้ร่วมกัน
ตัวอย่าง:
ขณะนี้ข้อมูลการวิเคราะห์การถดถอยปรากฏให้เห็นแล้ว