Bu tez çalışmasının amacı, bağımsız değişkenler arasında çoklu bağlantı olması
durumunda en küçük kareler regresyonu yerine kullanılması önerilen yanlı regresyon
yöntemlerinin incelenmesidir. Bu amaçla, bir bağımlı değişken ile aralarında çoklu
bağlantı olduğu belirlenen altı bağımsız değişkenin yer aldığı gerçek bir veri seti
kullanılmıştır. Bazı tavuk yumurtası kalite parametrelerini içeren veri setinde, yumurta
ak ağırlığı ve yumurta sarı ağırlığı bağımlı değişkenler olarak, diğer kalite
parametreleri (yumurta eni, yumurta boyu, yumurta ağırlığı, şekil indeksi, kabuk
ağırlığı, kabuk kalınlığı) ise bağımsız değişkenler olarak kabul edilmiştir. Hem
yumurta ak ağırlığının hem de yumurta sarı ağırlığının bağımlı değişken olduğu iki
adet regresyon modeli oluşturulmuştur. Yanlı regresyon yöntemi olarak, Ridge
regresyon analizi, temel bileşenler regresyon analizi ve kısmi en küçük kareler
regresyon analizi yöntemleri kullanılmış ve bu yöntemlerin sonuçları en küçük kareler
regresyonu ile karşılaştırılmıştır. Performans kriteri olarak, tahmin edilen katsayıların
standart hata değerleri, hata kareler ortalaması (HKO), düzeltilmiş belirleme katsayısı
(R2-düz) ve Akaike Bilgi Kriteri (AIC) kullanılmıştır. En küçük kareler regresyon
yönteminde daha düşük HKO ve daha yüksek R2-düz değerleri elde edilmesine
rağmen, tahminlenen regresyon katsayılarının standart hata değerlerlerinin daha
yüksek olduğu belirlenmiştir. Çoklu bağlantı durumunda, en küçük kareler regresyonu
yerine yanlı regresyon yöntemlerinin kullanılmasının tahmin edilen regresyon
katsayılarının standart hatalarını normalleştirdiği, dolayısıyla daha güvenilir sonuçlar
verdiği ortaya konulmuştur.,The aim of this thesis study is to investigate the biased regression methods that are
suggested to be used instead of least squares regression method in case of happening
multicollinearity between independent variables. For this purpose, a real data set
including six dependent variables, which are identified as having multicollinearity, is
used with a dependent variable. In the data set including some chicken egg quality
parameters, egg albumen weight and egg yolk weight were accepted as dependent
variables, whereas other quality parameters (egg width, egg height, egg weight, shape
index, shell weight, shell thickness) were accepted as independent variables. Two
regression models were made up, in which both the egg albumen weight and the egg
yolk weight were dependent variables. Ridge regression analysis, principal component
regression analysis and partial least squares regression analysis were used as the biased
regression and the results of these methods were compared with the least squares
regression. The standard errors of the coefficient estimates (SEE), mean squared error
(MSE), adjusted coefficient of determination (R2-adj) and Akaike Information
Criterion (AIC) were used as performance criteria. Although lower MSE and higher
R2-adj values were obtained in the least squares regression, the coefficient estimates
had higher standard error values. In case of multicollinearity, the use of regression
methods instead of the least squares regression revealed that regression coefficients
gave more reliable results because of normalizing the SEE.
The aim of this thesis study is to investigate the biased regression methods that are
suggested to be used instead of least squares regression method in case of happening
multicollinearity between independent variables. For this purpose, a real data set
including six dependent variables, which are identified as having multicollinearity, is
used with a dependent variable. In the data set including some chicken egg quality
parameters, egg albumen weight and egg yolk weight were accepted as dependent
variables, whereas other quality parameters (egg width, egg height, egg weight, shape
index, shell weight, shell thickness) were accepted as independent variables. Two
regression models were made up, in which both the egg albumen weight and the egg
yolk weight were dependent variables. Ridge regression analysis, principal component
regression analysis and partial least squares regression analysis were used as the biased
regression and the results of these methods were compared with the least squares
regression. The standard errors of the coefficient estimates (SEE), mean squared error
(MSE), adjusted coefficient of determination (R2-adj) and Akaike Information
Criterion (AIC) were used as performance criteria. Although lower MSE and higher
R2-adj values were obtained in the least squares regression, the coefficient estimates
had higher standard error values. In case of multicollinearity, the use of regression
methods instead of the least squares regression revealed that regression coefficients
gave more reliable results because of normalizing the SEE.