การวิเคราะห์สหสัมพันธ์และการถดถอยใน Excel: คำแนะนำสำหรับการดำเนินการ การถดถอยใน Excel: สมการตัวอย่าง การถดถอยเชิงเส้น เรียกว่าตัวแปรตามในการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอย
การถดถอย (เชิงเส้น) การวิเคราะห์- วิธีทางสถิติสำหรับศึกษาอิทธิพลของตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไปที่มีต่อตัวแปรตาม ตัวแปรอิสระเรียกอีกอย่างว่าตัวถดถอยหรือตัวทำนาย และตัวแปรตามเรียกว่าตัวแปรเกณฑ์ คำศัพท์เฉพาะทาง ขึ้นอยู่กับและ เป็นอิสระตัวแปรสะท้อนถึงการพึ่งพาทางคณิตศาสตร์ของตัวแปรเท่านั้น ( ดูความสัมพันธ์ที่ผิดพลาด) มากกว่าความสัมพันธ์ระหว่างเหตุและผล
เป้าหมายของการวิเคราะห์การถดถอย
- การกำหนดระดับการกำหนดความแปรผันของตัวแปรเกณฑ์ (ตาม) โดยตัวทำนาย (ตัวแปรอิสระ)
- การทำนายค่าของตัวแปรตามโดยใช้ตัวแปรอิสระ
- การกำหนดการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวต่อการแปรผันของตัวแปรตาม
การวิเคราะห์การถดถอยไม่สามารถใช้เพื่อระบุได้ว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ เนื่องจากการมีความสัมพันธ์ดังกล่าวเป็นข้อกำหนดเบื้องต้นสำหรับการนำการวิเคราะห์ไปใช้
คำจำกัดความทางคณิตศาสตร์ของการถดถอย
ความสัมพันธ์แบบถดถอยอย่างเคร่งครัดสามารถกำหนดได้ดังนี้ อนุญาต เป็นตัวแปรสุ่มที่มีการแจกแจงความน่าจะเป็นร่วมกันที่กำหนด หากสำหรับแต่ละชุดของค่าจะมีการกำหนดค่าความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไข
(สมการถดถอยในรูปแบบทั่วไป)จากนั้นจึงเรียกใช้ฟังก์ชัน การถดถอยค่าของ Y ตามค่าและกราฟของมันคือ เส้นถดถอยโดย หรือ สมการถดถอย.
การพึ่งพานั้นปรากฏในการเปลี่ยนแปลงของค่าเฉลี่ยของ Y โดยมีการเปลี่ยนแปลงใน แม้ว่าสำหรับชุดค่าคงที่แต่ละชุด ค่ายังคงเป็นตัวแปรสุ่มที่มีการกระเจิงที่แน่นอน
เพื่อชี้แจงคำถามว่าการวิเคราะห์การถดถอยแม่นยำเพียงใดประมาณการเปลี่ยนแปลงใน Y เมื่อเปลี่ยนแปลง จะใช้ค่าเฉลี่ยของการกระจายตัวของ Y สำหรับชุดค่าต่างๆ (อันที่จริงเรากำลังพูดถึงการวัดการกระจายตัวของตัวแปรตาม รอบเส้นถดถอย)
วิธีกำลังสองน้อยที่สุด (การคำนวณสัมประสิทธิ์)
ในทางปฏิบัติ เส้นการถดถอยมักถูกค้นหาในรูปแบบของฟังก์ชันเชิงเส้น (การถดถอยเชิงเส้น) ซึ่งจะประมาณเส้นโค้งที่ต้องการได้ดีที่สุด วิธีนี้ทำได้โดยใช้วิธีกำลังสองน้อยที่สุด เมื่อผลรวมของค่าเบี่ยงเบนกำลังสองของค่าที่สังเกตได้จริงจากการประมาณค่ามีค่าลดลง (หมายถึงค่าประมาณโดยใช้เส้นตรงที่แสดงถึงความสัมพันธ์ของการถดถอยที่ต้องการ):
(M - ขนาดตัวอย่าง) วิธีการนี้มีพื้นฐานมาจาก ความจริงที่รู้ว่าจำนวนเงินที่ปรากฏในนิพจน์ข้างต้นถือเป็นค่าต่ำสุดสำหรับกรณีที่
เพื่อแก้ปัญหาการวิเคราะห์การถดถอยโดยใช้วิธีกำลังสองน้อยที่สุด แนวคิดนี้จึงถูกนำมาใช้ ฟังก์ชั่นที่เหลือ:
เงื่อนไขขั้นต่ำสำหรับฟังก์ชันที่เหลือ:
ระบบผลลัพธ์ที่ได้คือระบบสมการเชิงเส้นที่ไม่ทราบค่า
ถ้าเราแทนพจน์อิสระทางด้านซ้ายของสมการในรูปเมทริกซ์
และค่าสัมประสิทธิ์ของสิ่งที่ไม่ทราบทางด้านขวาคือเมทริกซ์
จากนั้นเราจะได้สมการเมทริกซ์: ซึ่งแก้ได้ง่าย ๆ ด้วยวิธีเกาส์ เมทริกซ์ที่ได้จะเป็นเมทริกซ์ที่มีค่าสัมประสิทธิ์ของสมการเส้นถดถอย:
เพื่อให้ได้ค่าประมาณที่ดีที่สุด จำเป็นต้องปฏิบัติตามเงื่อนไขเบื้องต้นของ OLS (เงื่อนไข Gauss–Markov) ในวรรณคดีอังกฤษ การประมาณค่าดังกล่าวเรียกว่า BLUE (Best Linear Unbiased Estimators)
การตีความพารามิเตอร์การถดถอย
พารามิเตอร์เหล่านี้เป็นค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน ถูกตีความว่าเป็นสัดส่วนของความแปรปรวนของ Y อธิบายโดยการกำหนดอิทธิพลของตัวทำนายที่เหลือนั่นคือมันวัดการมีส่วนร่วมของแต่ละบุคคลต่อคำอธิบายของ Y ในกรณีของตัวทำนายที่สัมพันธ์กันปัญหาความไม่แน่นอนในการประมาณการเกิดขึ้น ซึ่งขึ้นอยู่กับลำดับที่ตัวทำนายรวมอยู่ในแบบจำลอง ในกรณีเช่นนี้ มีความจำเป็นต้องใช้วิธีวิเคราะห์สหสัมพันธ์และการถดถอยแบบขั้นตอน
เมื่อพูดถึงโมเดลการวิเคราะห์การถดถอยแบบไม่เชิงเส้น สิ่งสำคัญคือต้องใส่ใจว่าเรากำลังพูดถึงความไม่เชิงเส้นในตัวแปรอิสระหรือไม่ (จากมุมมองที่เป็นทางการ สามารถลดขนาดลงได้อย่างง่ายดายเป็น การถดถอยเชิงเส้น) หรือเกี่ยวกับความไม่เชิงเส้นในพารามิเตอร์โดยประมาณ (ทำให้เกิดปัญหาในการคำนวณอย่างรุนแรง) ในกรณีที่ความไม่เชิงเส้นของประเภทแรกจากมุมมองที่สำคัญ สิ่งสำคัญคือต้องเน้นลักษณะที่ปรากฏในรูปแบบของเงื่อนไขของแบบฟอร์ม , บ่งบอกถึงการมีอยู่ของการโต้ตอบระหว่างคุณลักษณะ ฯลฯ (ดู Multicollinearity)
ดูเพิ่มเติม
ลิงค์
- www.kgafk.ru - การบรรยายในหัวข้อ “การวิเคราะห์การถดถอย”
- www.basegroup.ru - วิธีการเลือกตัวแปรในแบบจำลองการถดถอย
วรรณกรรม
- นอร์แมน เดรเปอร์, แฮร์รี สมิธการวิเคราะห์การถดถอยแบบประยุกต์ การถดถอยหลายครั้ง= การวิเคราะห์การถดถอยประยุกต์ - ฉบับที่ 3 - อ.: “วิภาษวิธี”, 2550. - หน้า 912. - ISBN 0-471-17082-8
- วิธีที่มีประสิทธิภาพในการประมาณค่าแบบจำลองทางสถิติ: เอกสารประกอบ - K.: PP "Sansparel", 2005. - หน้า 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
- รัดเชนโก สตานิสลาฟ กริกอรีวิชวิธีการวิเคราะห์การถดถอย: เอกสาร - K.: "Korniychuk", 2011. - หน้า 376. - ISBN 978-966-7599-72-0
มูลนิธิวิกิมีเดีย
2010.วัตถุประสงค์หลักของการวิเคราะห์การถดถอยประกอบด้วยการกำหนดรูปแบบการสื่อสารเชิงวิเคราะห์ ซึ่งการเปลี่ยนแปลงในลักษณะที่มีประสิทธิผลนั้นเกิดจากอิทธิพลของลักษณะเฉพาะของปัจจัยตั้งแต่หนึ่งตัวขึ้นไป และชุดของปัจจัยอื่น ๆ ทั้งหมดที่มีอิทธิพลต่อลักษณะที่มีประสิทธิผลจะถูกนำมาเป็นค่าคงที่และเป็นค่าเฉลี่ย:
ปัญหาการวิเคราะห์การถดถอย
ก) การสร้างรูปแบบการพึ่งพาอาศัยกัน เกี่ยวกับธรรมชาติและรูปแบบของความสัมพันธ์ระหว่างปรากฏการณ์ มีการแยกแยะความแตกต่างระหว่างการถดถอยเชิงเส้นเชิงบวกและไม่เชิงเส้น และเชิงลบเชิงเส้นและไม่เชิงเส้น
b) การกำหนดฟังก์ชันการถดถอยในรูปแบบของสมการทางคณิตศาสตร์ประเภทใดประเภทหนึ่งและสร้างอิทธิพลของตัวแปรอธิบายต่อตัวแปรตาม
c) การประมาณค่าที่ไม่รู้จักของตัวแปรตาม การใช้ฟังก์ชันการถดถอย คุณสามารถสร้างค่าของตัวแปรตามภายในช่วงเวลาของค่าที่ระบุของตัวแปรอธิบาย (เช่น แก้ปัญหาการประมาณค่า) หรือประเมินหลักสูตรของกระบวนการนอกช่วงเวลาที่ระบุ (เช่น แก้ปัญหาการประมาณค่า) ผลลัพธ์คือการประมาณค่าของตัวแปรตาม
การถดถอยคู่คือสมการสำหรับความสัมพันธ์ระหว่างตัวแปร y และ x สองตัว: y=f(x) โดยที่ y คือตัวแปรตาม (คุณลักษณะผลลัพธ์) x เป็นตัวแปรอธิบายอิสระ (คุณลักษณะ-ปัจจัย)
มีการถดถอยเชิงเส้นและไม่เชิงเส้น
การถดถอยเชิงเส้น: y = a + bx + ε
การถดถอยแบบไม่เชิงเส้นแบ่งออกเป็นสองประเภท: การถดถอยที่ไม่เชิงเส้นตามตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเชิงเส้นตามพารามิเตอร์ที่ประมาณไว้ และการถดถอยที่ไม่เชิงเส้นตามพารามิเตอร์ที่ประมาณไว้
การถดถอยที่ไม่เชิงเส้นในตัวแปรอธิบาย:
- การถดถอยที่ไม่เป็นเชิงเส้นเทียบกับพารามิเตอร์ที่ถูกประมาณ:
- กำลัง y=a x b ε
- เอ็กซ์โปเนนเชียล y=a b x ε
.
สำหรับสมการเชิงเส้นและไม่เชิงเส้นที่สามารถลดเป็นเชิงเส้นได้ ระบบต่อไปนี้จะถูกแก้สำหรับ a และ b:
คุณสามารถใช้สูตรสำเร็จรูปที่ตามมาจากระบบนี้:
ความใกล้ชิดของการเชื่อมต่อระหว่างปรากฏการณ์ที่กำลังศึกษาได้รับการประเมินโดยสัมประสิทธิ์เชิงเส้นของความสัมพันธ์คู่ r xy สำหรับการถดถอยเชิงเส้น (-1≤r xy ≤1):
และดัชนีสหสัมพันธ์ p xy - สำหรับการถดถอยแบบไม่เชิงเส้น (0≤p xy ≤1):
คุณภาพของแบบจำลองที่สร้างขึ้นจะถูกประเมินโดยค่าสัมประสิทธิ์ (ดัชนี) ของการกำหนด รวมถึงค่าความคลาดเคลื่อนโดยเฉลี่ยของการประมาณ
ข้อผิดพลาดในการประมาณเฉลี่ย - ส่วนเบี่ยงเบนเฉลี่ยของค่าที่คำนวณจากค่าจริง:
.
ขีดจำกัดที่อนุญาตของค่า A ไม่เกิน 8-10%
ค่าสัมประสิทธิ์ความยืดหยุ่นโดยเฉลี่ย E แสดงโดยเปอร์เซ็นต์โดยเฉลี่ยที่ผลลัพธ์ y จะเปลี่ยนจากค่าเฉลี่ยเมื่อปัจจัย x เปลี่ยนแปลง 1% จากค่าเฉลี่ย:
.
วัตถุประสงค์ของการวิเคราะห์ความแปรปรวนคือเพื่อวิเคราะห์ความแปรปรวนของตัวแปรตาม:
∑(ปปป )²=∑(ปปปป -ปป )²+∑(ปปปปปป)²
โดยที่ ∑(y-y)² คือผลรวมของการเบี่ยงเบนกำลังสอง
∑(y x -y)² - ผลรวมของการเบี่ยงเบนกำลังสองเนื่องจากการถดถอย (“อธิบาย” หรือ “แฟคทอเรียล”);
∑(y-y x)² - ผลรวมที่เหลือของการเบี่ยงเบนกำลังสอง
ส่วนแบ่งของความแปรปรวนที่อธิบายโดยการถดถอยในความแปรปรวนรวมของคุณลักษณะผลลัพธ์ y นั้นมีลักษณะเฉพาะโดยสัมประสิทธิ์ (ดัชนี) ของการพิจารณา R2:
ค่าสัมประสิทธิ์การกำหนดคือกำลังสองของค่าสัมประสิทธิ์หรือดัชนีสหสัมพันธ์
F-test - การประเมินคุณภาพของสมการการถดถอย - ประกอบด้วยการทดสอบสมมติฐาน No เกี่ยวกับความไม่สำคัญทางสถิติของสมการการถดถอยและตัวบ่งชี้ความใกล้ชิดของความสัมพันธ์ ในการดำเนินการนี้ จะมีการเปรียบเทียบระหว่างข้อเท็จจริง F จริงกับค่าตาราง F วิกฤต (ตาราง) ของเกณฑ์ Fisher F ข้อเท็จจริง F ถูกกำหนดจากอัตราส่วนของค่าของปัจจัยและความแปรปรวนที่เหลือซึ่งคำนวณตามระดับความเป็นอิสระ:
,
โดยที่ n คือจำนวนหน่วยประชากร m คือจำนวนพารามิเตอร์สำหรับตัวแปร x
ตาราง F คือค่าสูงสุด ความหมายที่เป็นไปได้เกณฑ์ภายใต้อิทธิพลของปัจจัยสุ่มในระดับความเป็นอิสระและระดับนัยสำคัญที่กำหนด ระดับนัยสำคัญ a คือความน่าจะเป็นที่จะปฏิเสธสมมติฐานที่ถูกต้อง โดยพิจารณาว่าเป็นจริง โดยปกติแล้ว a จะเท่ากับ 0.05 หรือ 0.01
ถ้าเป็นตาราง F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >ข้อเท็จจริง F ดังนั้นสมมติฐาน H o จะไม่ถูกปฏิเสธ และตระหนักถึงความไม่มีนัยสำคัญทางสถิติและความไม่น่าเชื่อถือของสมการการถดถอย
เพื่อประเมินนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอยและสหสัมพันธ์ จะมีการคำนวณค่าที-เทสต์และช่วงความเชื่อมั่นของตัวบ่งชี้แต่ละตัว มีการเสนอสมมติฐานเกี่ยวกับลักษณะการสุ่มของตัวบ่งชี้ เช่น เกี่ยวกับความแตกต่างเล็กน้อยจากศูนย์ การประเมินความสำคัญของค่าสัมประสิทธิ์การถดถอยและสหสัมพันธ์โดยใช้การทดสอบของนักเรียนนั้นดำเนินการโดยการเปรียบเทียบค่ากับขนาดของข้อผิดพลาดแบบสุ่ม:
; ; .
ข้อผิดพลาดแบบสุ่มของพารามิเตอร์การถดถอยเชิงเส้นและค่าสัมประสิทธิ์สหสัมพันธ์ถูกกำหนดโดยสูตร:
การเปรียบเทียบค่าจริงและค่าวิกฤต (ตาราง) ของสถิติ t - ตารางและข้อเท็จจริง - เรายอมรับหรือปฏิเสธสมมติฐาน H o
ความสัมพันธ์ระหว่างการทดสอบ F ของฟิชเชอร์กับสถิติ t ของนักเรียนแสดงออกมาด้วยความเท่าเทียมกัน
ถ้าโต๊ะ< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t คือข้อเท็จจริงที่ว่าสมมติฐาน H o ไม่ได้ถูกปฏิเสธ และลักษณะการสุ่มของการก่อตัวของ a, b หรือ r xy ได้รับการยอมรับ
ในการคำนวณช่วงความเชื่อมั่น เราจะกำหนดข้อผิดพลาดสูงสุด D สำหรับแต่ละตัวบ่งชี้:
Δ a =t ตาราง ม. , Δ b =t ตาราง ม. ข .
สูตรการคำนวณช่วงความเชื่อมั่นมีดังนี้:
γ ก =aΔ ก ; γ ก =ก-Δ ก ; γ ก =a+Δa
γ ข =bΔ ข ; γ ข =ข-Δ ข ; γ ข =b+Δ ข
หากศูนย์อยู่ในช่วงความเชื่อมั่น กล่าวคือ ถ้าขีดจำกัดล่างเป็นลบและขีดจำกัดบนเป็นบวก พารามิเตอร์โดยประมาณจะถือเป็นศูนย์ เนื่องจากไม่สามารถรับทั้งค่าบวกและค่าลบพร้อมกันได้
ค่าพยากรณ์ y p ถูกกำหนดโดยการแทนที่ค่า (พยากรณ์) ที่สอดคล้องกัน x p ลงในสมการการถดถอย y x =a+b·x คำนวณข้อผิดพลาดมาตรฐานโดยเฉลี่ยของการคาดการณ์ myx:
,
ที่ไหน
และช่วงความเชื่อมั่นสำหรับการพยากรณ์ได้ถูกสร้างขึ้น:
γ y x =y พี Δ y พี ; γ y x นาที=y p -Δ y p ; γ y x สูงสุด=y p +Δ y p
โดยที่ Δ y x =t ตาราง m y x .
ตัวอย่างวิธีแก้ปัญหา
ภารกิจที่ 1 สำหรับเจ็ดดินแดนของภูมิภาคอูราลในปี 199X ทราบค่าของลักษณะสองประการตารางที่ 1.
ที่จำเป็น: 1. เพื่อระบุลักษณะการพึ่งพาของ y บน x ให้คำนวณพารามิเตอร์ของฟังก์ชันต่อไปนี้:
ก) เชิงเส้น;
b) กำลัง (ก่อนอื่นคุณต้องดำเนินการขั้นตอนการทำให้เชิงเส้นของตัวแปรโดยใช้ลอการิทึมของทั้งสองส่วน)
c) สาธิต;
d) ไฮเปอร์โบลาด้านเท่ากันหมด (คุณต้องทราบวิธีทำให้แบบจำลองนี้เป็นเชิงเส้นล่วงหน้าด้วย)
2. ประเมินแต่ละรุ่นโดยใช้ค่าคลาดเคลื่อนเฉลี่ยของการประมาณค่า A และการทดสอบ F ของฟิชเชอร์
โซลูชัน (ตัวเลือกหมายเลข 1)
เพื่อคำนวณพารามิเตอร์ a และ b ของการถดถอยเชิงเส้น y=a+b·x (การคำนวณสามารถทำได้โดยใช้เครื่องคิดเลข)แก้ระบบสมการปกติสำหรับ กและ ข:
โดยใช้ข้อมูลเริ่มต้น เราคำนวณ ∑y, ∑x, ∑y x, ∑x², ∑y²:
ย | x | ใช่ | x2 | คุณ 2 | ใช่ | ใช่ ใช่ x | ฉัน | |
ล | 68,8 | 45,1 | 3102,88 | 2034,01 | 4733,44 | 61,3 | 7,5 | 10,9 |
2 | 61,2 | 59,0 | 3610,80 | 3481,00 | 3745,44 | 56,5 | 4,7 | 7,7 |
3 | 59,9 | 57,2 | 3426,28 | 3271,84 | 3588,01 | 57,1 | 2,8 | 4,7 |
4 | 56,7 | 61,8 | 3504,06 | 3819,24 | 3214,89 | 55,5 | 1,2 | 2,1 |
5 | 55,0 | 58,8 | 3234,00 | 3457,44 | 3025,00 | 56,5 | -1,5 | 2,7 |
6 | 54,3 | 47,2 | 2562,96 | 2227,84 | 2948,49 | 60,5 | -6,2 | 11,4 |
7 | 49,3 | 55,2 | 2721,36 | 3047,04 | 2430,49 | 57,8 | -8,5 | 17,2 |
ทั้งหมด | 405,2 | 384,3 | 22162,34 | 21338,41 | 23685,76 | 405,2 | 0,0 | 56,7 |
พ. ความหมาย (รวม/ไม่มี) | 57,89 ย | 54,90 x | 3166,05 xy | 3048,34 x² | 3383,68 y² | เอ็กซ์ | เอ็กซ์ | 8,1 |
ส | 5,74 | 5,86 | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ |
ส 2 | 32,92 | 34,34 | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ |
ก=y -b x = 57.89+0.35 54.9 กลับไปยัง 76.88
สมการถดถอย: ย = 76,88 - 0,35เอ็กซ์โดยมีค่าเฉลี่ยรายวันเพิ่มขึ้น ค่าจ้างสำหรับ 1 ถู ส่วนแบ่งค่าใช้จ่ายในการซื้อผลิตภัณฑ์อาหารลดลงเฉลี่ย 0.35%
ลองคำนวณค่าสัมประสิทธิ์สหสัมพันธ์คู่เชิงเส้น:
การเชื่อมต่ออยู่ในระดับปานกลางผกผัน
มากำหนดค่าสัมประสิทธิ์การกำหนด: r² xy =(-0.35)=0.127
ความแปรผันของผลลัพธ์ 12.7% อธิบายได้จากการแปรผันของตัวประกอบ x การแทนค่าจริงลงในสมการถดถอย เอ็กซ์มากำหนดค่าทางทฤษฎี (คำนวณ) ของ y x กัน ให้เราค้นหาค่าของข้อผิดพลาดการประมาณเฉลี่ย A:
โดยเฉลี่ยแล้วค่าที่คำนวณได้เบี่ยงเบนไปจากค่าจริง 8.1%
มาคำนวณเกณฑ์ F:
ค่าที่ได้รับบ่งชี้ถึงความจำเป็นในการยอมรับสมมติฐาน H 0 เกี่ยวกับลักษณะสุ่มของการพึ่งพาที่ระบุและความไม่มีนัยสำคัญทางสถิติของพารามิเตอร์ของสมการและตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อ
1ข.การสร้างแบบจำลองกำลัง y=a·x b นำหน้าด้วยขั้นตอนการทำให้ตัวแปรเชิงเส้นตรง ในตัวอย่าง การทำให้เป็นเส้นตรงทำได้โดยใช้ลอการิทึมของทั้งสองด้านของสมการ:
lg y=lg a + b lg x
Y=C+b·Y
โดยที่ Y=log(y), X=log(x), C=log(a)
สำหรับการคำนวณเราใช้ข้อมูลในตาราง 1.3.
ตารางที่ 1.3
ย | เอ็กซ์ | ใช่ | ย2 | เอ็กซ์ 2 | ใช่ | ใช่ ใช่ x | (ปปปป)² | ฉัน | |
1 | 1,8376 | 1,6542 | 3,0398 | 3,3768 | 2,7364 | 61,0 | 7,8 | 60,8 | 11,3 |
2 | 1,7868 | 1,7709 | 3,1642 | 3,1927 | 3,1361 | 56,3 | 4,9 | 24,0 | 8,0 |
3 | 1,7774 | 1,7574 | 3,1236 | 3,1592 | 3,0885 | 56,8 | 3,1 | 9,6 | 5,2 |
4 | 1,7536 | 1,7910 | 3,1407 | 3,0751 | 3,2077 | 55,5 | 1,2 | 1,4 | 2,1 |
5 | 1,7404 | 1,7694 | 3,0795 | 3,0290 | 3,1308 | 56,3 | -1,3 | 1,7 | 2,4 |
6 | 1,7348 | 1,6739 | 2,9039 | 3,0095 | 2,8019 | 60,2 | -5,9 | 34,8 | 10,9 |
7 | 1,6928 | 1,7419 | 2,9487 | 2,8656 | 3,0342 | 57,4 | -8,1 | 65,6 | 16,4 |
ทั้งหมด | 12,3234 | 12,1587 | 21,4003 | 21,7078 | 21,1355 | 403,5 | 1,7 | 197,9 | 56,3 |
ค่าเฉลี่ย | 1,7605 | 1,7370 | 3,0572 | 3,1011 | 3,0194 | เอ็กซ์ | เอ็กซ์ | 28,27 | 8,0 |
σ | 0,0425 | 0,0484 | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ |
ซิ 2 | 0,0018 | 0,0023 | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ |
ลองคำนวณ C และ b:
C=Y -b·X = 1.7605+0.298·1.7370 = 2.278126
เราได้สมการเชิงเส้น: Y=2.278-0.298 X
หลังจากดำเนินการเพิ่มศักยภาพแล้ว เราได้: y=10 2.278 ·x -0.298
การแทนค่าจริงลงในสมการนี้ เอ็กซ์,เราได้รับค่าทางทฤษฎีของผลลัพธ์ จากนั้นเราจะคำนวณตัวบ่งชี้: ความแน่นของการเชื่อมต่อ - ดัชนีสหสัมพันธ์ p xy และข้อผิดพลาดการประมาณเฉลี่ย A
คุณลักษณะของแบบจำลองกฎกำลังบ่งชี้ว่าแบบจำลองนี้อธิบายความสัมพันธ์ได้ดีกว่าฟังก์ชันเชิงเส้นเล็กน้อย
1ค- การสร้างสมการของเส้นโค้งเอ็กซ์โพเนนเชียล y=a·b x นำหน้าด้วยขั้นตอนการทำให้ตัวแปรเชิงเส้นตรงโดยใช้ลอการิทึมของทั้งสองด้านของสมการ:
บันทึก y=บันทึก a + x บันทึก b
Y=C+B x
สำหรับการคำนวณเราใช้ข้อมูลตาราง
ย | x | ใช่ | ย2 | x2 | ใช่ | ใช่ ใช่ x | (ปปปป)² | ฉัน | |
1 | 1,8376 | 45,1 | 82,8758 | 3,3768 | 2034,01 | 60,7 | 8,1 | 65,61 | 11,8 |
2 | 1,7868 | 59,0 | 105,4212 | 3,1927 | 3481,00 | 56,4 | 4,8 | 23,04 | 7,8 |
3 | 1,7774 | 57,2 | 101,6673 | 3,1592 | 3271,84 | 56,9 | 3,0 | 9,00 | 5,0 |
4 | 1,7536 | 61,8 | 108,3725 | 3,0751 | 3819,24 | 55,5 | 1,2 | 1,44 | 2,1 |
5 | 1,7404 | 58,8 | 102,3355 | 3,0290 | 3457,44 | 56,4 | -1,4 | 1,96 | 2,5 |
6 | 1,7348 | 47,2 | 81,8826 | 3,0095 | 2227,84 | 60,0 | -5,7 | 32,49 | 10,5 |
7 | 1,6928 | 55,2 | 93,4426 | 2,8656 | 3047,04 | 57,5 | -8,2 | 67,24 | 16,6 |
ทั้งหมด | 12,3234 | 384,3 | 675,9974 | 21,7078 | 21338,41 | 403,4 | -1,8 | 200,78 | 56,3 |
พ. สังกะสี | 1,7605 | 54,9 | 96,5711 | 3,1011 | 3048,34 | เอ็กซ์ | เอ็กซ์ | 28,68 | 8,0 |
σ | 0,0425 | 5,86 | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ |
ซิ 2 | 0,0018 | 34,339 | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ | เอ็กซ์ |
ค่าของพารามิเตอร์การถดถอย A และ ในมีจำนวน:
A=Y -B x = 1.7605+0.0023 54.9 = 1.887
สมการเชิงเส้นที่ได้รับคือ: Y=1.887-0.0023x ให้เราเสริมกำลังสมการผลลัพธ์แล้วเขียนมันในรูปแบบปกติ:
ใช่ x =10 1.887 10 -0.0023x = 77.1 0.9947 x
ให้เราประเมินความใกล้ชิดของการเชื่อมต่อผ่านดัชนีสหสัมพันธ์ p xy:
1. คำว่า "การถดถอย" ถูกนำมาใช้ครั้งแรกโดยผู้ก่อตั้งไบโอเมตริกซ์ F. Galton (ศตวรรษที่ 19) ซึ่งแนวคิดนี้ได้รับการพัฒนาโดยผู้ติดตามของเขา K. Pearson
การวิเคราะห์การถดถอย- วิธีการประมวลผลข้อมูลทางสถิติที่ช่วยให้คุณสามารถวัดความสัมพันธ์ระหว่างสาเหตุตั้งแต่หนึ่งสาเหตุขึ้นไป (ลักษณะปัจจัย) และผลที่ตามมา (ลักษณะผลลัพธ์)
เข้าสู่ระบบ- นี่คืออันหลัก คุณลักษณะเด่นลักษณะของปรากฏการณ์หรือกระบวนการที่กำลังศึกษาอยู่
สัญญาณที่มีประสิทธิภาพ -ตัวบ่งชี้ที่อยู่ระหว่างการศึกษา
เครื่องหมายปัจจัย- ตัวบ่งชี้ที่มีอิทธิพลต่อมูลค่าของลักษณะผลลัพธ์
วัตถุประสงค์ของการวิเคราะห์การถดถอยคือเพื่อประเมินการพึ่งพาการทำงานของค่าเฉลี่ยของคุณลักษณะผลลัพธ์ ( ที่) จากปัจจัย ( x 1, x 2, …, xn) แสดงเป็น สมการถดถอย
ที่= ฉ(x 1, x 2, …, xn). (6.1)
การถดถอยมีสองประเภท: แบบคู่และหลายรายการ
การถดถอยคู่ (ง่าย)- สมการของแบบฟอร์ม:
ที่= ฉ(x). (6.2)
คุณลักษณะผลลัพธ์ในการถดถอยคู่ถือเป็นฟังก์ชันของอาร์กิวเมนต์หนึ่งตัว นั่นคือ ลักษณะปัจจัยหนึ่ง
การวิเคราะห์การถดถอยประกอบด้วยขั้นตอนต่อไปนี้:
· การกำหนดประเภทของฟังก์ชัน
· การกำหนดค่าสัมประสิทธิ์การถดถอย
·การคำนวณค่าทางทฤษฎีของลักษณะผลลัพธ์
· การตรวจสอบนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอย
· การตรวจสอบนัยสำคัญทางสถิติของสมการถดถอย
การถดถอยหลายครั้ง- สมการของแบบฟอร์ม:
ที่= ฉ(x 1, x 2, …, xn). (6.3)
คุณลักษณะผลลัพธ์จะถือเป็นฟังก์ชันของอาร์กิวเมนต์หลายตัว เช่น สัญญาณปัจจัยหลายประการ
2. เพื่อกำหนดประเภทของฟังก์ชันได้อย่างถูกต้อง จำเป็นต้องค้นหาทิศทางของการเชื่อมต่อตามข้อมูลทางทฤษฎี
ตามทิศทางของการเชื่อมต่อ การถดถอยแบ่งออกเป็น:
· การถดถอยโดยตรงเกิดขึ้นภายใต้เงื่อนไขว่าด้วยการเพิ่มขึ้นหรือลดลงตามมูลค่าอิสระ” เอ็กซ์"ค่าของปริมาณที่ขึ้นต่อกัน " คุณ"เพิ่มขึ้นหรือลดลงตามไปด้วย
· การถดถอยแบบย้อนกลับเกิดขึ้นภายใต้เงื่อนไขว่ามีค่าเพิ่มขึ้นหรือลดลงอย่างอิสระ "เอ็กซ์"ปริมาณขึ้นอยู่กับ" คุณ"ลดลงหรือเพิ่มขึ้นตามนั้น
เพื่อกำหนดลักษณะการเชื่อมต่อให้ใช้ ประเภทต่อไปนี้สมการถดถอยคู่:
· y=a+bx– เชิงเส้น;
· y=e ax + b – เลขชี้กำลัง;
· y=a+b/x – ไฮเปอร์โบลิก;
· y=a+b 1 x+b 2 x 2 – พาราโบลา;
· y=ab x – เอ็กซ์โปเนนเชียลฯลฯ
ที่ไหน ก ข 1 ข 2- ค่าสัมประสิทธิ์ (พารามิเตอร์) ของสมการ ที่- สัญญาณที่มีประสิทธิภาพ เอ็กซ์- เครื่องหมายปัจจัย
3. การสร้างสมการถดถอยลงมาเพื่อประมาณค่าสัมประสิทธิ์ (พารามิเตอร์) สำหรับสิ่งนี้เราใช้ วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี).
วิธีกำลังสองน้อยที่สุดทำให้สามารถรับค่าประมาณพารามิเตอร์ดังกล่าวได้ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าจริงของแอตทริบิวต์ผลลัพธ์ " ที่"จากทฤษฎี" ใช่» มีน้อย กล่าวคือ
พารามิเตอร์สมการถดถอย y=a+bхโดยใช้วิธีกำลังสองน้อยที่สุดประมาณโดยใช้สูตร:
ที่ไหน เอ -ค่าสัมประสิทธิ์อิสระ ข- ค่าสัมประสิทธิ์การถดถอย แสดงว่าเครื่องหมายผลลัพธ์จะเปลี่ยนไปมากน้อยเพียงใด” ย"เมื่อลักษณะปัจจัยเปลี่ยนแปลงไป" x» ต่อหน่วยการวัด
4. เพื่อประเมินนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอย จะใช้การทดสอบของนักเรียน
โครงการทดสอบความสำคัญของสัมประสิทธิ์การถดถอย:
1) ฮ 0:ก=0, ข=0 - ค่าสัมประสิทธิ์การถดถอยไม่แตกต่างอย่างมีนัยสำคัญจากศูนย์
ฮ 1: ก≠ 0, ข≠ 0 - ค่าสัมประสิทธิ์การถดถอยแตกต่างจากศูนย์อย่างมาก
2) ร=0.05 – ระดับนัยสำคัญ
ที่ไหน ม.ข,ม- ข้อผิดพลาดแบบสุ่ม:
; . (6.7)
4) ทีโต๊ะ(พี; ฉ),
ที่ไหน ฉ=มะ-เค- 1 - จำนวนองศาอิสระ (ค่าตาราง) n- จำนวนการสังเกต เค เอ็กซ์".
5) ถ้า ก็แสดงว่าถูกปฏิเสธ เช่น ค่าสัมประสิทธิ์มีความสำคัญ
ถ้า แสดงว่าเป็นที่ยอมรับ เช่น ค่าสัมประสิทธิ์ไม่มีนัยสำคัญ
5. เพื่อตรวจสอบความถูกต้องของสมการถดถอยที่สร้างขึ้น จะใช้เกณฑ์ฟิชเชอร์
โครงการทดสอบความสำคัญของสมการถดถอย:
1) ฮ 0:สมการถดถอยไม่มีนัยสำคัญ
ฮ 1:สมการถดถอยมีความสำคัญ
2) ร=0.05 – ระดับนัยสำคัญ
3) , (6.8)
จำนวนการสังเกตอยู่ที่ไหน เค- จำนวนพารามิเตอร์ในสมการพร้อมตัวแปร " เอ็กซ์"; ที่- ค่าที่แท้จริงของแอตทริบิวต์ผลลัพธ์ ใช่- ค่าทางทฤษฎีของเครื่องหมายผลลัพธ์ - ค่าสัมประสิทธิ์สหสัมพันธ์คู่
4) เอฟ โต๊ะ(พี; ฉ 1 ; ฉ 2),
ที่ไหน ฉ 1 =k, ฉ 2 =n-k-1-จำนวนองศาอิสระ (ค่าตาราง)
5) ถ้า F คำนวณ >ตาราง Fจากนั้นจึงเลือกสมการถดถอยได้อย่างถูกต้องและสามารถนำไปใช้ในทางปฏิบัติได้
ถ้า เอฟ แคลอรี
6. ตัวบ่งชี้หลักที่สะท้อนถึงคุณภาพของการวิเคราะห์การถดถอยคือ ค่าสัมประสิทธิ์การตัดสินใจ (R 2)
ค่าสัมประสิทธิ์การตัดสินใจแสดงสัดส่วนของตัวแปรตาม” ที่" ถูกนำมาพิจารณาในการวิเคราะห์และเกิดจากอิทธิพลของปัจจัยที่รวมอยู่ในการวิเคราะห์
ค่าสัมประสิทธิ์การตัดสินใจ (ร2)รับค่าในช่วงเวลา สมการถดถอยเป็นเชิงคุณภาพถ้า ร 2 ≥0,8.
ค่าสัมประสิทธิ์การกำหนดเท่ากับกำลังสองของสัมประสิทธิ์สหสัมพันธ์เช่น
ตัวอย่างที่ 6.1ใช้ข้อมูลต่อไปนี้เพื่อสร้างและวิเคราะห์สมการการถดถอย:
สารละลาย.
1) คำนวณค่าสัมประสิทธิ์สหสัมพันธ์: . ความสัมพันธ์ระหว่างสัญญาณนั้นตรงและปานกลาง
2) สร้างสมการการถดถอยเชิงเส้นคู่
2.1) สร้างตารางการคำนวณ
№ | เอ็กซ์ | ที่ | หู | x2 | ใช่ | (ปปปป) 2 | ||
55,89 | 47,54 | 65,70 | ||||||
45,07 | 15,42 | 222,83 | ||||||
54,85 | 34,19 | 8,11 | ||||||
51,36 | 5,55 | 11,27 | ||||||
42,28 | 45,16 | 13,84 | ||||||
47,69 | 1,71 | 44,77 | ||||||
45,86 | 9,87 | 192,05 | ||||||
ผลรวม | 159,45 | 558,55 | ||||||
เฉลี่ย | 77519,6 | 22,78 | 79,79 | 2990,6 |
,
สมการการถดถอยเชิงเส้นคู่: ใช่ x =25.17+0.087x.
3) ค้นหาค่าทางทฤษฎี " ใช่"โดยการแทนค่าจริงลงในสมการถดถอย" เอ็กซ์».
4) สร้างกราฟของจริง " คุณ"และคุณค่าทางทฤษฎี” ใช่"คุณลักษณะที่มีประสิทธิผล (รูปที่ 6.1):r xy =0.47) และการสังเกตจำนวนเล็กน้อย
7) คำนวณค่าสัมประสิทธิ์การตัดสินใจ: ร 2=(0.47) 2 =0.22. สมการที่สร้างขึ้นมีคุณภาพต่ำ
เพราะ การคำนวณเมื่อทำการวิเคราะห์การถดถอยค่อนข้างกว้างขวาง ขอแนะนำให้ใช้โปรแกรมพิเศษ (Statistica 10, SPSS เป็นต้น)
รูปที่ 6.2 แสดงตารางพร้อมผลลัพธ์การวิเคราะห์การถดถอยที่ดำเนินการโดยใช้โปรแกรม Statistica 10
รูปที่ 6.2. ผลลัพธ์ของการวิเคราะห์การถดถอยดำเนินการโดยใช้โปรแกรม Statistica 10
5. วรรณกรรม:
1. กรัมเมอร์มาน วี.อี. ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์: หนังสือเรียน คู่มือมหาวิทยาลัย / V.E. กูร์แมน. - ม.: มัธยมปลาย, 2546. - 479 น.
2. โคยชูเบคอฟ บี.เค. ชีวสถิติ: หนังสือเรียน. - อัลมาตี: เอเวโร, 2014. - 154 น.
3. โลบอตสกาย่า เอ็น.แอล. คณิตศาสตร์ที่สูงขึ้น / เอ็น.แอล. Lobotskaya, Yu.V. โมโรซอฟ, เอ.เอ. ดูนาเยฟ. - อ.: มัธยมปลาย, 2530. - 319 น.
4. Medic V.A., Tokmachev M.S., Fishman B.B. สถิติทางการแพทย์และชีววิทยา: คำแนะนำ ใน 2 เล่ม/เอ็ด. ยู.เอ็ม. โคมาโรวา. ต. 1. สถิติเชิงทฤษฎี - อ.: แพทยศาสตร์, 2543. - 412 น.
5. การประยุกต์วิธีการวิเคราะห์ทางสถิติเพื่อการศึกษาด้านสาธารณสุขและการดูแลสุขภาพ: หนังสือเรียน / ed. คูเชเรนโก วี.ซี. - ฉบับที่ 4 แก้ไขใหม่ และเพิ่มเติม – อ.: GEOTAR - สื่อ, 2554. - 256 น.
การถดถอยคืออะไร?
พิจารณาตัวแปรต่อเนื่องสองตัว x=(x 1 , x 2 , .., xn), y=(y 1 , y 2 , ..., y n)
ลองวางจุดบนแผนกระจายสองมิติแล้วบอกว่าเรามี ความสัมพันธ์เชิงเส้นถ้าข้อมูลประมาณเป็นเส้นตรง
ถ้าเราเชื่อแบบนั้น ยขึ้นอยู่กับ xและการเปลี่ยนแปลงใน ยเกิดจากการเปลี่ยนแปลงใน xเราสามารถกำหนดเส้นการถดถอยได้ (regression ยบน x) ซึ่งอธิบายความสัมพันธ์เชิงเส้นระหว่างตัวแปรทั้งสองนี้ได้ดีที่สุด
การใช้คำว่าการถดถอยทางสถิติมาจากปรากฏการณ์ที่เรียกว่าการถดถอยต่อค่าเฉลี่ย ซึ่งมีสาเหตุมาจากเซอร์ ฟรานซิส กัลตัน (1889)
เขาแสดงให้เห็นว่าถึงแม้พ่อตัวสูงมักจะมีลูกชายตัวสูง แต่ส่วนสูงโดยเฉลี่ยของลูกชายยังน้อยกว่าพ่อตัวสูงอีกด้วย ความสูงเฉลี่ยของลูกชาย "ถดถอย" และ "ถอยหลัง" ไปสู่ความสูงเฉลี่ยของพ่อทุกคนในประชากร ดังนั้น โดยเฉลี่ยแล้ว พ่อตัวสูงจะมีลูกชายที่ตัวเตี้ยกว่า (แต่ก็ยังค่อนข้างสูง) และพ่อตัวเตี้ยก็มีลูกชายที่สูงกว่า (แต่ก็ยังค่อนข้างเตี้ย)
เส้นถดถอย
สมการทางคณิตศาสตร์ที่ประมาณเส้นการถดถอยเชิงเส้นอย่างง่าย (ตามคู่)
xเรียกว่าตัวแปรอิสระหรือตัวทำนาย
ย- ตัวแปรตามหรือตัวแปรตอบสนอง นี่คือคุณค่าที่เราคาดหวัง ย(โดยเฉลี่ย)ถ้าเรารู้คุณค่า x, เช่น. คือ “มูลค่าที่คาดการณ์ไว้” ย»
- ก- สมาชิกอิสระ (ทางแยก) ของสายการประเมิน นี่คือความหมาย ย, เมื่อไร x=0(รูปที่ 1)
- ข- ความชันหรือการไล่ระดับสีของเส้นประมาณ มันแสดงถึงจำนวนเงินที่ใช้ ยเพิ่มขึ้นโดยเฉลี่ยถ้าเราเพิ่มขึ้น xสำหรับหนึ่งหน่วย
- กและ ขเรียกว่าสัมประสิทธิ์การถดถอยของเส้นประมาณ แม้ว่าคำนี้มักใช้สำหรับเท่านั้น ข.
การถดถอยเชิงเส้นแบบคู่สามารถขยายเพื่อรวมตัวแปรอิสระมากกว่าหนึ่งตัวได้ ในกรณีนี้จะเรียกว่า การถดถอยหลายครั้ง.
รูปที่ 1. เส้นการถดถอยเชิงเส้นที่แสดงจุดตัด a และความชัน b (ปริมาณ Y จะเพิ่มขึ้นเมื่อ x เพิ่มขึ้นหนึ่งหน่วย)
วิธีกำลังสองน้อยที่สุด
เราทำการวิเคราะห์การถดถอยโดยใช้ตัวอย่างการสังเกตโดยที่ กและ ข- การประมาณค่าตัวอย่างของพารามิเตอร์จริง (ทั่วไป) α และ β ซึ่งกำหนดเส้นการถดถอยเชิงเส้นในประชากร (ประชากรทั่วไป)
วิธีที่ง่ายที่สุดในการกำหนดค่าสัมประสิทธิ์ กและ ขเป็น วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี)
ประเมินความพอดีโดยดูจากส่วนที่เหลือ (ระยะห่างแนวตั้งของแต่ละจุดจากเส้น เช่น ส่วนที่เหลือ = สังเกตได้ ย- คาดการณ์ ย, ข้าว. 2).
เลือกเส้นที่เหมาะสมที่สุดเพื่อให้ผลรวมของกำลังสองของส่วนที่เหลือน้อยที่สุด
ข้าว. 2. เส้นการถดถอยเชิงเส้นพร้อมภาพส่วนที่เหลือ (เส้นประแนวตั้ง) สำหรับแต่ละจุด
สมมติฐานการถดถอยเชิงเส้น
ดังนั้นสำหรับแต่ละค่าที่สังเกตได้ ส่วนที่เหลือจะเท่ากับผลต่างและค่าที่คาดการณ์ที่สอดคล้องกันแต่ละค่าอาจเป็นค่าบวกหรือลบก็ได้
คุณสามารถใช้ส่วนที่เหลือเพื่อทดสอบสมมติฐานเบื้องหลังการถดถอยเชิงเส้นต่อไปนี้:
- โดยปกติปริมาณที่เหลือจะกระจายโดยมีค่าเฉลี่ยเป็นศูนย์
หากสมมติฐานเกี่ยวกับความเป็นเส้นตรง ความปกติ และ/หรือความแปรปรวนคงที่เป็นเรื่องที่น่าสงสัย เราสามารถแปลงหรือคำนวณเส้นการถดถอยใหม่ซึ่งเป็นไปตามสมมติฐานเหล่านี้ (เช่น ใช้การแปลงลอการิทึม เป็นต้น)
ค่าผิดปกติ (ค่าผิดปกติ) และจุดอิทธิพล
การสังเกตที่ "มีอิทธิพล" หากละเว้น จะเปลี่ยนค่าประมาณพารามิเตอร์แบบจำลองตั้งแต่หนึ่งค่าขึ้นไป (เช่น ความชันหรือจุดตัดกัน)
ค่าผิดปกติ (การสังเกตที่ไม่สอดคล้องกับค่าส่วนใหญ่ในชุดข้อมูล) อาจเป็นการสังเกตที่ "มีอิทธิพล" และสามารถตรวจพบด้วยสายตาได้ง่ายโดยการตรวจสอบพล็อตกระจายแบบไบวาเรียตหรือพล็อตที่เหลือ
ทั้งสำหรับค่าผิดปกติและสำหรับการสังเกต (จุด) ที่ "มีอิทธิพล" จะใช้แบบจำลองทั้งที่มีและไม่มีการรวมเข้าด้วยกัน และให้ความสนใจกับการเปลี่ยนแปลงในการประมาณค่า (สัมประสิทธิ์การถดถอย)
เมื่อทำการวิเคราะห์ คุณไม่ควรละทิ้งค่าผิดปกติหรือจุดอิทธิพลโดยอัตโนมัติ เนื่องจากการเพิกเฉยต่อสิ่งเหล่านั้นอาจส่งผลต่อผลลัพธ์ที่ได้รับ ศึกษาสาเหตุของค่าผิดปกติเหล่านี้และวิเคราะห์อยู่เสมอ
สมมติฐานการถดถอยเชิงเส้น
เมื่อสร้างการถดถอยเชิงเส้น สมมติฐานว่างจะถูกทดสอบว่าความชันทั่วไปของเส้นการถดถอย β เท่ากับศูนย์
หากความชันของเส้นเป็นศูนย์ จะไม่มีความสัมพันธ์เชิงเส้นระหว่าง และ: การเปลี่ยนแปลงจะไม่ส่งผลกระทบ
เพื่อทดสอบสมมติฐานว่างที่ว่าความชันที่แท้จริงเป็นศูนย์ คุณสามารถใช้อัลกอริทึมต่อไปนี้:
คำนวณสถิติการทดสอบเท่ากับอัตราส่วน ซึ่งขึ้นอยู่กับการแจกแจงด้วยองศาอิสระ โดยที่ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์
,
- การประมาณค่าการกระจายตัวของสารตกค้าง
โดยทั่วไป หากถึงระดับนัยสำคัญ สมมติฐานว่างจะถูกปฏิเสธ
โดยที่คือจุดเปอร์เซ็นต์ของการแจกแจงด้วยระดับความอิสระ ซึ่งให้ความน่าจะเป็นของการทดสอบสองด้าน
นี่คือช่วงที่มีความชันทั่วไปที่มีความน่าจะเป็น 95%
สำหรับตัวอย่างขนาดใหญ่ เราสามารถประมาณค่าได้ 1.96 (นั่นคือ สถิติการทดสอบมีแนวโน้มที่จะแจกแจงแบบปกติ)
การประเมินคุณภาพของการถดถอยเชิงเส้น: สัมประสิทธิ์การกำหนด R 2
เพราะความสัมพันธ์เชิงเส้นและเราคาดว่าการเปลี่ยนแปลงจะเป็น
และเรียกมันว่าความแปรผันที่เกิดจากหรืออธิบายโดยการถดถอย ความแปรผันที่เหลือควรมีค่าน้อยที่สุด
หากสิ่งนี้เป็นจริง ความแปรผันส่วนใหญ่จะอธิบายด้วยการถดถอย และจุดต่างๆ จะอยู่ใกล้กับเส้นการถดถอย กล่าวคือ เส้นนี้เหมาะกับข้อมูลอย่างดี
เรียกว่าสัดส่วนของความแปรปรวนทั้งหมดที่อธิบายโดยการถดถอย ค่าสัมประสิทธิ์การตัดสินใจมักจะแสดงเป็นเปอร์เซ็นต์และแสดงแทน ร 2(ในการถดถอยเชิงเส้นคู่ นี่คือปริมาณ ร 2, กำลังสองของสัมประสิทธิ์สหสัมพันธ์) ช่วยให้คุณสามารถประเมินคุณภาพของสมการถดถอยได้
ความแตกต่างแสดงถึงเปอร์เซ็นต์ของความแปรปรวนที่ไม่สามารถอธิบายได้ด้วยการถดถอย
ไม่มีการทดสอบอย่างเป็นทางการในการประเมิน เราต้องพึ่งพาวิจารณญาณส่วนตัวเพื่อกำหนดความดีของเส้นการถดถอย
การใช้เส้นถดถอยเพื่อพยากรณ์
คุณสามารถใช้เส้นการถดถอยเพื่อทำนายค่าจากค่าที่จุดสิ้นสุดของช่วงที่สังเกตได้ (อย่าคาดการณ์เกินขีดจำกัดเหล่านี้)
เราทำนายค่าเฉลี่ยของสิ่งที่สังเกตได้ซึ่งมีค่าเฉพาะโดยการแทนค่านั้นลงในสมการของเส้นการถดถอย
ดังนั้น ถ้าเราทำนายว่า ใช้ค่าทำนายนี้และค่าคลาดเคลื่อนมาตรฐานเพื่อประมาณค่าช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยประชากรที่แท้จริง
การทำซ้ำขั้นตอนนี้สำหรับค่าที่แตกต่างกันทำให้คุณสามารถสร้างขีดจำกัดความเชื่อมั่นสำหรับบรรทัดนี้ได้ นี่คือแถบหรือพื้นที่ที่มีเส้นจริง เช่น ที่ระดับความเชื่อมั่น 95%
แผนการถดถอยอย่างง่าย
การออกแบบการถดถอยอย่างง่ายประกอบด้วยตัวทำนายต่อเนื่องหนึ่งตัว หากมีการสังเกต 3 รายการที่มีค่าตัวทำนาย P เช่น 7, 4 และ 9 และการออกแบบมีเอฟเฟกต์ลำดับที่หนึ่ง P ดังนั้นเมทริกซ์การออกแบบ X จะเป็น
และสมการถดถอยโดยใช้ P สำหรับ X1 คือ
Y = b0 + b1 ป
หากการออกแบบการถดถอยอย่างง่ายมีผลกระทบลำดับที่สูงกว่าบน P เช่นผลกำลังสอง ค่าในคอลัมน์ X1 ในเมทริกซ์การออกแบบจะถูกยกกำลังสอง:
และสมการจะอยู่ในรูป
Y = b0 + b1 P2
วิธีการเข้ารหัสที่จำกัดด้วยซิกมาและมีพารามิเตอร์มากเกินไปไม่สามารถใช้ได้กับการออกแบบการถดถอยอย่างง่ายและการออกแบบอื่นๆ ที่มีเฉพาะตัวทำนายต่อเนื่อง (เนื่องจากไม่มีตัวทำนายเชิงหมวดหมู่) โดยไม่คำนึงถึงวิธีการเข้ารหัสที่เลือก ค่าของตัวแปรต่อเนื่องจะเพิ่มขึ้นตามลำดับและใช้เป็นค่าสำหรับตัวแปร X ในกรณีนี้ จะไม่มีการบันทึกซ้ำ นอกจากนี้ เมื่ออธิบายแผนการถดถอย คุณสามารถละเว้นเมทริกซ์การออกแบบ X ได้ และใช้ได้กับสมการการถดถอยเท่านั้น
ตัวอย่าง: การวิเคราะห์การถดถอยอย่างง่าย
ตัวอย่างนี้ใช้ข้อมูลที่นำเสนอในตาราง:
ข้าว. 3. ตารางข้อมูลเบื้องต้น
ข้อมูลที่รวบรวมจากการเปรียบเทียบสำมะโนประชากรปี 1960 และ 1970 ใน 30 มณฑลที่สุ่มเลือก ชื่อเทศมณฑลจะแสดงเป็นชื่อสังเกตการณ์ ข้อมูลเกี่ยวกับตัวแปรแต่ละตัวมีดังต่อไปนี้:
ข้าว. 4. ตารางข้อกำหนดตัวแปร
ปัญหาการวิจัย
สำหรับตัวอย่างนี้ จะมีการวิเคราะห์ความสัมพันธ์ระหว่างอัตราความยากจนและระดับที่คาดการณ์เปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจน ดังนั้น เราจะถือว่าตัวแปร 3 (Pt_Poor) เป็นตัวแปรตาม
เราสามารถตั้งสมมติฐานได้ว่า การเปลี่ยนแปลงขนาดประชากรและเปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจนมีความสัมพันธ์กัน ดูเหมือนสมเหตุสมผลที่จะคาดหวังว่าความยากจนจะนำไปสู่การย้ายถิ่นฐานออก ดังนั้นจะมีความสัมพันธ์เชิงลบระหว่างเปอร์เซ็นต์ของผู้ที่อยู่ใต้เส้นความยากจนกับการเปลี่ยนแปลงของประชากร ดังนั้น เราจะถือว่าตัวแปร 1 (Pop_Chng) เป็นตัวแปรทำนาย
ดูผลลัพธ์
ค่าสัมประสิทธิ์การถดถอย
ข้าว. 5. ค่าสัมประสิทธิ์การถดถอยของ Pt_Poor บน Pop_Chng
ที่จุดตัดของแถว Pop_Chng และคอลัมน์ Param<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.
ค่าสัมประสิทธิ์ที่ไม่ได้มาตรฐานสำหรับการถดถอยของ Pt_Poor บน Pop_Chng คือ -0.40374 ซึ่งหมายความว่าทุกๆ หนึ่งหน่วยของประชากรที่ลดลง จะมีอัตราความยากจนเพิ่มขึ้นที่ .40374 ขีดจำกัดความเชื่อมั่น 95% บนและล่าง (ค่าเริ่มต้น) สำหรับสัมประสิทธิ์ที่ไม่ได้มาตรฐานนี้ไม่รวมศูนย์ ดังนั้นสัมประสิทธิ์การถดถอยจึงมีนัยสำคัญที่ระดับ p
การกระจายตัวของตัวแปร
ค่าสัมประสิทธิ์สหสัมพันธ์อาจถูกประเมินสูงเกินไปหรือประเมินต่ำไปอย่างมาก หากมีค่าผิดปกติจำนวนมากในข้อมูล มาศึกษาการกระจายตัวของตัวแปรตาม Pt_Poor ตามเขตกัน เมื่อต้องการทำเช่นนี้ เรามาสร้างฮิสโตแกรมของตัวแปร Pt_Poor กัน
ข้าว. 6. ฮิสโตแกรมของตัวแปร Pt_Poor
อย่างที่คุณเห็น การแจกแจงของตัวแปรนี้แตกต่างอย่างเห็นได้ชัดจากการแจกแจงแบบปกติ อย่างไรก็ตาม แม้ว่าแม้แต่สองมณฑล (สองคอลัมน์ทางขวา) ก็มีเปอร์เซ็นต์ของครอบครัวที่ต่ำกว่าเส้นความยากจนมากกว่าที่คาดไว้ภายใต้การกระจายแบบปกติ แต่ดูเหมือนว่าครอบครัวเหล่านั้นจะ "อยู่ในช่วง"
ข้าว. 7. ฮิสโตแกรมของตัวแปร Pt_Poor
การตัดสินนี้ค่อนข้างเป็นอัตวิสัย หลักทั่วไปคือ ควรพิจารณาค่าผิดปกติหากการสังเกต (หรือการสังเกต) ไม่อยู่ภายในช่วงเวลา (เฉลี่ย ± 3 เท่าของส่วนเบี่ยงเบนมาตรฐาน) ในกรณีนี้ ควรทำการวิเคราะห์ซ้ำโดยมีและไม่มีค่าผิดปกติเพื่อให้แน่ใจว่าจะไม่มีผลกระทบสำคัญต่อความสัมพันธ์ระหว่างสมาชิกประชากร
แผนภูมิกระจาย
หากสมมติฐานข้อใดข้อหนึ่งเป็นนิรนัยเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรที่กำหนด จะเป็นประโยชน์ในการทดสอบบนกราฟของแผนภาพกระจายที่สอดคล้องกัน
แผนภูมิกระจายแสดงความสัมพันธ์เชิงลบที่ชัดเจน (-.65) ระหว่างตัวแปรทั้งสอง นอกจากนี้ยังแสดงช่วงความเชื่อมั่น 95% สำหรับเส้นการถดถอย กล่าวคือ มีความน่าจะเป็น 95% ที่เส้นการถดถอยจะอยู่ระหว่างเส้นโค้งประสองเส้น
เกณฑ์ความสำคัญ
ข้าว. 9. ตารางแสดงเกณฑ์นัยสำคัญ
การทดสอบค่าสัมประสิทธิ์การถดถอย Pop_Chng ยืนยันว่า Pop_Chng เกี่ยวข้องอย่างยิ่งกับ Pt_Poor , p<.001 .
บรรทัดล่าง
ตัวอย่างนี้แสดงวิธีวิเคราะห์การออกแบบการถดถอยอย่างง่าย นอกจากนี้ยังมีการนำเสนอการตีความค่าสัมประสิทธิ์การถดถอยที่ไม่ได้มาตรฐานและเป็นมาตรฐานด้วย มีการพูดคุยถึงความสำคัญของการศึกษาการกระจายการตอบสนองของตัวแปรตาม และเทคนิคในการกำหนดทิศทางและความเข้มแข็งของความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตาม
จากการศึกษาเนื้อหาในบทที่ 4 ผู้เรียนควร:
ทราบ
- แนวคิดพื้นฐานของการวิเคราะห์การถดถอย
- วิธีการประมาณค่าและคุณสมบัติของค่าประมาณกำลังสองน้อยที่สุด
- กฎพื้นฐานสำหรับการทดสอบนัยสำคัญและการประมาณช่วงของสมการและสัมประสิทธิ์การถดถอย
สามารถ
- ค้นหาค่าประมาณพารามิเตอร์ของแบบจำลองสมการไบวาเรียตและสมการถดถอยพหุคูณโดยใช้ข้อมูลตัวอย่าง วิเคราะห์คุณสมบัติ
- ตรวจสอบความสำคัญของสมการและสัมประสิทธิ์การถดถอย
- ค้นหาการประมาณช่วงของพารามิเตอร์ที่มีนัยสำคัญ
เป็นเจ้าของ
- ทักษะในการประมาณค่าทางสถิติของพารามิเตอร์ของสมการไบวาเรียตและสมการถดถอยพหุคูณ ทักษะในการตรวจสอบความเพียงพอของตัวแบบการถดถอย
- ทักษะในการหาสมการถดถอยพร้อมสัมประสิทธิ์ที่มีนัยสำคัญทั้งหมดโดยใช้ซอฟต์แวร์วิเคราะห์
แนวคิดพื้นฐาน
หลังจากดำเนินการวิเคราะห์สหสัมพันธ์ เมื่อมีการระบุความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างตัวแปรและระดับของความใกล้เคียงได้รับการประเมินแล้ว ตัวแปรเหล่านี้มักจะดำเนินการอธิบายทางคณิตศาสตร์ของประเภทของการขึ้นต่อกันโดยใช้วิธีการวิเคราะห์การถดถอย เพื่อจุดประสงค์นี้ จึงมีการเลือกคลาสของฟังก์ชันที่เกี่ยวข้องกับตัวบ่งชี้ที่มีประสิทธิผล ที่และข้อโต้แย้ง คำนวณค่าประมาณของพารามิเตอร์ของสมการคู่ควบและวิเคราะห์ความแม่นยำของสมการผลลัพธ์
ฟังก์ชัน| อธิบายการขึ้นต่อกันของค่าเฉลี่ยแบบมีเงื่อนไขของคุณลักษณะผลลัพธ์ ที่จากค่าอาร์กิวเมนต์ที่กำหนดเรียกว่า สมการถดถอย
คำว่า "การถดถอย" (จาก Lat. การถดถอย –ถอยกลับไปหาบางสิ่งบางอย่าง) ได้รับการแนะนำโดยนักจิตวิทยาและนักมานุษยวิทยาชาวอังกฤษ F. Galton และเกี่ยวข้องกับตัวอย่างแรก ๆ ของเขาซึ่ง Galton ประมวลผลข้อมูลทางสถิติที่เกี่ยวข้องกับคำถามเกี่ยวกับพันธุกรรมของความสูงพบว่าหากความสูงของ พ่อเบี่ยงเบนไปจากความสูงเฉลี่ยของพ่อทุกคน เอ็กซ์นิ้ว ความสูงของลูกชายจะเบี่ยงเบนไปจากความสูงเฉลี่ยของลูกชายทุกคนน้อยกว่า xนิ้ว แนวโน้มที่ระบุถูกเรียกว่า การถดถอยไปสู่ค่าเฉลี่ย
คำว่า "การถดถอย" ถูกใช้กันอย่างแพร่หลายในวรรณกรรมทางสถิติ แม้ว่าในหลายกรณีจะไม่ได้ระบุลักษณะความสัมพันธ์ทางสถิติอย่างถูกต้องแม่นยำ
ในการอธิบายสมการถดถอยได้อย่างถูกต้อง จำเป็นต้องรู้กฎการกระจายแบบมีเงื่อนไขของตัวบ่งชี้ประสิทธิผล คุณในทางปฏิบัติทางสถิติ โดยปกติจะไม่สามารถรับข้อมูลดังกล่าวได้ ดังนั้นจึงจำกัดอยู่เพียงการค้นหาค่าประมาณที่เหมาะสมสำหรับฟังก์ชันเท่านั้น ฉ(xคุณ เอ็กซ์ 2,... l*) ขึ้นอยู่กับการวิเคราะห์ที่มีความหมายเบื้องต้นของปรากฏการณ์หรือจากข้อมูลทางสถิติเริ่มต้น
ภายในกรอบของสมมติฐานแต่ละแบบจำลองเกี่ยวกับประเภทของการกระจายเวกเตอร์ของตัวบ่งชี้<) может быть получен общий вид สมการถดถอย, ที่ไหน. ตัวอย่างเช่น ภายใต้สมมติฐานว่าชุดตัวบ่งชี้ที่กำลังศึกษาเป็นไปตามกฎการแจกแจงแบบปกติของมิติ () พร้อมด้วยเวกเตอร์ของความคาดหวังทางคณิตศาสตร์
โดยที่ และเมทริกซ์ความแปรปรวนร่วม
การกระจายตัวอยู่ที่ไหน ใช่
สมการการถดถอย (ความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไข) มีรูปแบบดังนี้
ดังนั้น หากตัวแปรสุ่มหลายตัวแปร ()
เป็นไปตามกฎการแจกแจงแบบปกติมิติ () จากนั้นจึงใช้สมการถดถอยของตัวบ่งชี้ที่มีประสิทธิผล ที่ในตัวแปรอธิบายจะเป็นเชิงเส้นเข้า เอ็กซ์ดู.
อย่างไรก็ตาม ในทางปฏิบัติทางสถิติ เรามักจะจำกัดตัวเองเพื่อค้นหาค่าประมาณที่เหมาะสมสำหรับฟังก์ชันการถดถอยที่แท้จริงที่ไม่รู้จัก ฉ(x)เนื่องจากผู้วิจัยไม่มีความรู้ที่แน่นอนเกี่ยวกับกฎการแจกแจงความน่าจะเป็นแบบมีเงื่อนไขของตัวบ่งชี้ประสิทธิภาพที่วิเคราะห์ ที่สำหรับค่าอาร์กิวเมนต์ที่กำหนด เอ็กซ์
ลองดูความสัมพันธ์ระหว่างค่าประมาณจริง แบบจำลอง และการถดถอย ให้ตัวบ่งชี้ที่มีประสิทธิภาพ ที่ที่เกี่ยวข้องกับข้อโต้แย้ง เอ็กซ์อัตราส่วน
โดยที่ เป็นตัวแปรสุ่มที่มีกฎการแจกแจงแบบปกติ และ และ ฟังก์ชันการถดถอยที่แท้จริงในกรณีนี้มีรูปแบบ
สมมติว่าเราไม่ทราบรูปแบบที่แน่นอนของสมการการถดถอยที่แท้จริง แต่เรามีข้อสังเกตเก้าประการเกี่ยวกับสองมิติ ตัวแปรสุ่มเชื่อมโยงกันด้วยความสัมพันธ์ที่แสดงในรูป 4.1.
ข้าว. 4.1. ตำแหน่งสัมพัทธ์ของความจริงฉ(x) และเชิงทฤษฎีอ๊ะแบบจำลองการถดถอย
ตำแหน่งของจุดต่างๆ ในรูป 4.1 ช่วยให้เราสามารถจำกัดตัวเองให้อยู่ในคลาสของการพึ่งพาเชิงเส้นของแบบฟอร์ม
เมื่อใช้วิธีกำลังสองน้อยที่สุด เราจะหาค่าประมาณของสมการการถดถอย
เพื่อการเปรียบเทียบในรูป. 4.1 แสดงกราฟของฟังก์ชันการถดถอยจริงและฟังก์ชันการถดถอยโดยประมาณทางทฤษฎี การประมาณสมการการถดถอยจะมาบรรจบกับความน่าจะเป็นอย่างหลัง อ๊ะโดยเพิ่มขนาดตัวอย่างได้ไม่จำกัด ()
เนื่องจากเราเลือกฟังก์ชันการถดถอยเชิงเส้นผิดแทนที่จะเป็นฟังก์ชันการถดถอยที่แท้จริง ซึ่งน่าเสียดายที่เป็นเรื่องปกติในทางปฏิบัติในการวิจัยทางสถิติ ข้อสรุปทางสถิติและการประมาณค่าของเราจะไม่มีคุณสมบัติสอดคล้องกัน กล่าวคือ ไม่ว่าเราจะเพิ่มจำนวนการสังเกตอย่างไร การประมาณค่าตัวอย่างของเราจะไม่รวมกับฟังก์ชันการถดถอยที่แท้จริง
หากเราเลือกคลาสของการถดถอยฟังก์ชันอย่างถูกต้อง แสดงว่าคำอธิบายที่ใช้ไม่ถูกต้อง อ๊ะอธิบายได้เฉพาะตัวอย่างที่มีจำกัดเท่านั้นจึงทำให้มีขนาดเล็กได้ตามต้องการ
เพื่อที่จะเรียกคืนค่าตามเงื่อนไขของตัวบ่งชี้ประสิทธิภาพและฟังก์ชันการถดถอยที่ไม่รู้จักจากข้อมูลทางสถิติเริ่มต้นได้ดีที่สุด สิ่งต่อไปนี้มักถูกใช้บ่อยที่สุด: เกณฑ์ความเพียงพอฟังก์ชั่นการสูญเสีย
1. วิธีกำลังสองน้อยที่สุดตามที่ค่าเบี่ยงเบนกำลังสองของค่าที่สังเกตได้ของตัวบ่งชี้ที่มีประสิทธิภาพ , จากค่าแบบจำลองจะลดลงโดยที่ค่าสัมประสิทธิ์ของสมการการถดถอย คือค่าของเวกเตอร์ของการโต้แย้งใน "-M การสังเกต:
ปัญหาการหาค่าประมาณของเวกเตอร์ได้รับการแก้ไขแล้ว การถดถอยที่เกิดขึ้นเรียกว่า สี่เหลี่ยมจัตุรัสเฉลี่ย
2. วิธีการโมดูลน้อยที่สุดตามที่ผลรวมของการเบี่ยงเบนสัมบูรณ์ของค่าที่สังเกตได้ของตัวบ่งชี้ที่มีประสิทธิภาพจากค่าโมดูลาร์จะลดลงนั่นคือ
การถดถอยที่เกิดขึ้นเรียกว่า หมายถึงสัมบูรณ์(ค่ามัธยฐาน).
3. วิธีขั้นต่ำสุดลงมาเพื่อลดค่ามอดุลัสความเบี่ยงเบนสูงสุดของค่าที่สังเกตได้ของตัวบ่งชี้ประสิทธิผลให้เหลือน้อยที่สุด ใช่จากค่าโมเดลคือ
การถดถอยที่เกิดขึ้นเรียกว่า มินิแม็กซ์
ในการใช้งานจริง มักจะมีปัญหาเกี่ยวกับการศึกษาตัวแปรสุ่ม ใช่ขึ้นอยู่กับชุดตัวแปรและพารามิเตอร์ที่ไม่รู้จักบางชุด เราจะพิจารณา () เป็น (เค+ 1)-มิติประชากรทั่วไปจากการสุ่มตัวอย่าง พีโดยที่ () คือผลลัพธ์ของการสังเกตครั้งที่ 3 จำเป็นต้องประมาณค่าพารามิเตอร์ที่ไม่รู้จักตามผลการสังเกต งานที่อธิบายไว้ข้างต้นเกี่ยวข้องกับปัญหาการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอย เรียกว่าวิธีการวิเคราะห์ทางสถิติของการพึ่งพาตัวแปรสุ่ม ที่กับตัวแปรที่พิจารณาในการวิเคราะห์การถดถอยว่าเป็นค่าที่ไม่สุ่ม โดยไม่คำนึงถึงกฎการแจกแจงที่แท้จริง