Yapay Sinir Ağı’nın büyüsünü keşfetmeye yönelik makale dizimin ikinci bölümüne hoş geldiniz. İlk bölümde, Yapay Sinir Ağları Neden Bu Kadar Güçlü? sorusuna reel değerli sürekli fonksiyonlar uzayı olan C(Im)’yi tanıttık ve bu uzayın hem Topolojik bir Alan hem de Normlu bir Alan olduğunu kanıtladık. Bu yazıda, bu temel kavramların derinliklerine inmeye ve yapay sinir ağlarının sırlarını daha da açığa çıkarmaya devam edeceğiz. Hazırsanız, yolculuğumuza bir adım daha ileriye taşıyalım…
Evrensel Yaklaşım Teoremi’nin Kanıtı
Bu yazının amacına ulaşabilmesi için, öncelikle Evrensel Yaklaşım Teoremi’ni kanıtlamamız gerekiyor. Bu teorem, yapay sinir ağlarının herhangi bir sürekli fonksiyonu yaklaşık olarak modelleyebileceğini söylüyor. Şimdi, bu teoremin kanıtına başlamadan önce, “S” kümesinin tüm yapay sinir ağı fonksiyonlarını içerdiğini hatırlayalım. Topolojik bir bakış açısıyla, bu teorem şu şekilde kanıtlanabilir: S kümesinin kapanışının C(Im) uzayında yoğun olması gerekir. Yani, “Cl(S)” (S’nin kapanışı), reel değerli sürekli fonksiyonlar uzayı olan C(Im) ile aynı olmalıdır.
Kanıt: Cl(S) C(Im) İçinde Yoğundur
Diyelim ki, Cl(S) C(Im) içinde yoğun değildir.
Bu durumda şu sonuca varabiliriz:
- Cl(S), C(Im) içinde kapalı bir lineer altuzaydır.
- C(Im)’de, Cl(S)’nin dışında kalan h fonksiyonu olduğu bir durum söz konusu olabilir.
Burada, C(Im) üzerinde tanımlı bir sürekli lineer fonksiyonel L olduğunu varsayıyoruz. Bu fonksiyonel, Cl(S) üzerinde sıfırdır, yani L(w) = 0 tüm w ∈ Cl(S) için geçerlidir.
Ancak, L(h) ≠ 0 olduğunu da biliyoruz (bunu Hahn-Banach Teoremi ile açıklıyoruz). Bu durumda, h fonksiyonu için L, ∫ h(x) dμ(x) şeklinde bir temsil fonksiyonu alır (RMK Temsil Teoremi’ne göre).
Bundan sonrasını daha somutlaştıracak olursak, σ(wTx + b) fonksiyonu Cl(S) içinde yer aldığı için, L(σ(wTx + b)) = 0 olur. Bu, h fonksiyonu ile çelişir çünkü σ fonksiyonu ayrımcıdır. Burada μ = 0 olduğunda, L(h) = 0 olarak çıkar, ancak bu, baştaki L(h) ≠ 0 varsayımımıza ters düşer. Sonuç olarak, bu çelişki kanıtın tamamlanmasını sağlar.
Şöyle hayal edelim. Bir orkestra düşünün. Orkestranın her bir çalgıcısı farklı bir enstrüman çalıyor ve hepsi birlikte bir armoni yaratıyor. Burada, orkestra bütün olarak müziği çalarken, her bir çalgıcı bir “fonksiyon” gibi düşünülebilir. Orkestra, bu çalgıların toplamının armonisini temsil eder.
Şimdi, eğer orkestranın sadece bir kısmı (örneğin bir çalgıcı grubu) çalarsa ve diğerleri dışarıda kalırsa, bir tür boşluk oluşur. Bu boşluğu doldurmak için diğer çalgıcıların müdahalesi gerekir. Eğer orkestranın “kapanışı” (yani tam bir orkestra) tamamen çalarsa, bu durumda eksiklik kalmaz ve müzik mükemmel bir uyumla çalar. Evrensel Yaklaşım Teoremi de aslında bu tür bir “tam orkestra” benzetmesiyle, her fonksiyonu tam olarak modelleyebilecek güce sahip olduğunu söyler.
Bu şekilde, Cl(S)’nin sadece bir altküme değil, gerçekten de tam bir altuzay olduğunu ve tüm sürekli fonksiyonları modelleyebileceğini kanıtlamış olduk.
Cl(S) C(Im) İçinde Kapalı Bir Lineer Altuzaydır
Şimdi, S kümesinin C(Im) içinde kapalı bir lineer altuzay olduğunu gösterelim. Bunu kanıtlamak için birkaç aşama takip edeceğiz.
UA1. S, C(Im) İçinde Bir Lineer Altuzaydır
Öncelikle, S’nin C(Im) içinde bir lineer altuzay olduğunu kanıtlıyoruz. Bunu şu şekilde yapabiliriz:
Herhangi iki fonksiyon ff ve gg S kümesinden seçildiğinde, f(x)f(x) ve g(x)g(x) aşağıdaki gibi ifade edilebilir:
- f(x)=∑ν[i]σ(w[i]Tx+b[i])f(x) = \sum \nu[i] \sigma(w[i]^T x + b[i]) (Burada 1≤i≤M1 \leq i \leq M)
- g(x)=∑ν′[i]σ(w′[i]Tx+b′[i])g(x) = \sum \nu'[i] \sigma(w'[i]^T x + b'[i]) (Burada 1≤i≤N1 \leq i \leq N)
Burada, f(x)+g(x)f(x) + g(x) şu şekilde yazılabilir:
- (f+g)(x)=∑ν′′[i]σ(w′′[i]Tx+b′′[i])(f+g)(x) = \sum \nu”[i] \sigma(w”[i]^T x + b”[i]) (Burada 1≤i≤M+N1 \leq i \leq M+N)
Yani, f+g∈Sf + g \in S olduğunu gösteriyoruz.
Ayrıca, f∈Sf \in S ve c∈Rc \in \mathbb{R} (ve c≠0c \neq 0) olduğunda, c⋅f(x)c \cdot f(x) şu şekilde yazılabilir:
- (c⋅f)(x)=c⋅f(x)=∑c⋅ν[i]σ(w[i]Tx+b[i])(c \cdot f)(x) = c \cdot f(x) = \sum c \cdot \nu[i] \sigma(w[i]^T x + b[i]) (Burada 1≤i≤M1 \leq i \leq M)
Bu da c⋅f∈Sc \cdot f \in S olduğunu gösteriyor.
Bundan dolayı, SS, C(Im) içinde bir lineer altuzaydır. Yani, f+gf + g ve c⋅fc \cdot f her zaman S kümesinde yer alır.
Hadi hayal edelim SS bir grup müzik notası ve her bir fonksiyon ff bir melodi. Eğer iki melodi ff ve gg çalındığında yeni bir melodi oluşuyorsa (yani, f+gf + g bir melodi oluşturuyorsa) ve bir melodiye bir enstrüman eklersek (yani c⋅fc \cdot f), bu durumda oluşan yeni melodilerin de SS’de yer alması gibi, burada da fonksiyonların toplamları ve skaler çarpanları S kümesinin içinde kalır.
NS1 Teoremi ve Cl(S)’nin Lineer Altuzay Olması
Şimdi, Cl(S)Cl(S)’nin (yani, S’nin kapanışı) C(Im) içinde bir lineer altuzay olduğunu kanıtlamak için önemli bir teorem kullanacağız:
NS1. Eğer SS bir normlu uzayın lineer altuzayıysa, o zaman SS’nin kapanışı Cl(S)Cl(S), aynı uzayda bir lineer altuzaydır.
Bu teoremi kullanarak, Cl(S)Cl(S)’nin C(Im) içinde bir lineer altuzay olduğunu gösterelim.
Cl(S) Kapalı Bir Altuzaydır
Öncelikle, Cl(S)Cl(S)’nin C(Im) içinde kapalı bir küme olduğunu biliyoruz (CL2’ye göre). Daha önce gösterdiğimiz gibi, SS zaten C(Im) içinde bir lineer altuzaydır (UA1). Şimdi, Cl(S)Cl(S)’nin C(Im) içinde bir lineer altuzay olduğunu kanıtlıyoruz.
ff ve gg fonksiyonlarını Cl(S)Cl(S)’den seçtiğimizde, bu fonksiyonların toplamının SS’de ve dolayısıyla Cl(S)Cl(S)’de olduğunu gösteriyoruz. Ayrıca, f∈Cl(S)f \in Cl(S) ve c∈Rc \in \mathbb{R} (ve c≠0c \neq 0) olduğunda, c⋅fc \cdot f’nin de Cl(S)Cl(S)’de olduğunu gösteriyoruz. Bu durumda, Cl(S)Cl(S) hem toplama hem de skaler çarpma açısından kapalıdır.
şöyle diyebiliriz, Cl(S)Cl(S), C(Im) içinde kapalı bir lineer altuzaydır.
Yukarıdaki adımlarda, S’nin C(Im) içinde bir lineer altuzay olduğunu ve Cl(S)Cl(S)’nin de C(Im) içinde kapalı bir lineer altuzay olduğunu göstermiş olduk. Bu, Universal Approximation Theorem (Evrensel Yaklaşım Teoremi) için önemli bir adımdır, çünkü bu sonuç, bir yapay sinir ağının çeşitli fonksiyonları tüm sürekli gerçek sayılı fonksiyonları yaklaşabileceği anlamına gelir.
Bu teori, yapay sinir ağlarının güçlü ve esnek yapısının temelini atmaktadır ve bir sinir ağının, ne kadar karmaşık olursa olsun, uygun yapılandırma ve öğrenme ile herhangi bir sürekli fonksiyonu modelleyebilme kapasitesine sahip olduğunu ortaya koymaktadır.
Normlu Uzayın Bölüt Uzayı (Quotient Space)
Bölüt uzayı (quotient space), lineer cebir için güçlü bir araçtır. Bu kavram, bir vektör uzayının yapısını, bazı elemanları denkliğe göre sınıflandırarak “sıkıştırarak” basitleştirmemize olanak tanır. Bu basitleştirme, kanıtları daha kolay hale getirebilir.
Bölüt Uzay: Bir vektör uzayı olan V içinde N lineer altuzayından oluşturulmuş bir vektör uzayıdır. V üzerinde tanımlanan denklem ilişkisi ∼ kullanılarak şu şekilde tanımlanır:
- Her x, y ∈ V için, x ∼ y ancak x – y ∈ N olduğunda.
Bu ilişkilerin bir denklem ilişkisi olduğuna dair kanıtı yapalım:
- Refleksiflik: x – x = 0 ∈ N, dolayısıyla x ∼ x.
- Sempatiklik (Symmetry): Eğer x ∼ y ise, o zaman x – y ∈ N. Bunu tersine çevirirsek, -x + y ∈ N, yani y ∼ x.
- Geçişlilik (Transitivity): Eğer x ∼ y ve y ∼ z ise, o zaman x – y ∈ N ve y – z ∈ N. Buradan, x – z = (x – y) + (y – z) ∈ N, yani x ∼ z.
Bu, ∼ ilişkisi bir denklem ilişkisi olduğuna göre, V/∼ üzerinde bir bölüt (partition) oluşur. Bu bölüt:
V/∼ = { [x] | x ∈ V }
Burada, [x] denkleme göre sınıflandırılmış olan x’in denklem sınıfıdır. Bu sınıf, [x] = { y ∈ V | y ∼ x } olarak tanımlanır.
Bölüt Uzayı (Quotient Space) Tanımlaması
Şimdi V/∼ üzerinde tanımlanan iki işlemle bu yapıyı bir vektör uzayına dönüştürelim:
- Toplama Operasyonu: Eğer [x] ve [y] V/N’deki elemanlarsa, o zaman: [x] + [y] = [x + y]
- Skaler Çarpma Operasyonu: Eğer c ∈ ℝ bir skaler ve [x] ∈ V/N bir denklem sınıfı ise: c · [x] = [c · x]
Bu işlemler iyi tanımlanmış olduğundan, V/N üzerindeki bu işlemlerle, V/N bir vektör uzayı haline gelir.
İşlemlerin İyi Tanımlandığını Gösterelim
Eğer [x] = [x’] ve [y] = [y’] ise, burada x, x’, y, y’ ∈ V, toplama işlemini göstermek gerekirse:
- x – x’, y – y’ ∈ N, dolayısıyla: (x + y) – (x’ + y’) = (x – x’) + (y – y’) ∈ N Yani, x + y ∼ x’ + y’ olduğu için: [x + y] = [x’ + y’] Bu da demektir ki: [x] + [y] = [x’] + [y’]
Skaler çarpma işlemi için de:
- c · (x – x’) ∈ N, dolayısıyla: c · x – c · x’ ∈ N Yani: c · x ∼ c · x’ ve dolayısıyla: [c · x] = [c · x’] Bu da skaler çarpmanın iyi tanımlandığını gösteriyor.
Bölüt Uzayının Vektör Uzayı Özellikleri
Şimdi, V/N’nin vektör uzayı olarak özelliklerini kontrol edelim:
- Birleşme (Associativity): [x] + ([y] + [z]) = [x + (y + z)] = [(x + y) + z] = [x + y] + [z]
- Değişme (Commutativity): [x] + [y] = [x + y] = [y + x] = [y] + [x]
- Kimlik Elemanı (Identity Element): [0] + [x] = [x]
- Ters Elemanlar (Inverse Elements): [-x] + [x] = [0]
- Uyumlu (Compatibility): a · (b · [x]) = [a · (b · x)] = [(a · b) · x] = (a · b) · [x]
- Dağılım (Distributivity): a · ([x] + [y]) = a · [x + y] = [a · (x + y)] = [a · x + a · y] = a · [x] + a · [y] (a + b) · [x] = [(a + b) · x] = [a · x + b · x] = [a · x] + [b · x]
Çok formüller ve matematik oldu farkındayım. Ete ve kemiğe büründürelim, bölüt uzayını, bir grup öğrenci düşünerek açıklayabiliriz. Her öğrenciye bir kimlik numarası verildiğini varsayalım. Bu kimlik numarası, öğrencilerin hangi okula gittiğini gösteriyor. İki öğrenci, aynı okuldan geliyorsa, aralarındaki fark sadece okuldaki pozisyonlarından ibarettir; kimlik numaraları, aslında okuldaki pozisyonları ile tanımlanan bir farktır.
Bölüt uzayı, bu öğrencileri okullara göre “düşük çözünürlükle” sınıflandırır, çünkü okul farkı, öğrencilerin özelliklerini tam olarak belirlemez, sadece okuldaki yerlerini belirtir. Her okul, aslında bir denklem sınıfıdır ve öğrenci kimlik numaraları bu sınıflara dahil olan elemanlardır. Yani, öğrencilerin kimlikleri, aslında okul gruplarına indirgenmiştir.
Bu şekilde, bölüt uzayı, öğrencilerin daha detaylı özelliklerini göz ardı ederek sadece okul bilgilerini dikkate alır.
Anladım, bu sefer daha akıcı ve anlaşılır bir dil kullanarak yazıyı tekrar düzenleyeceğim. Formüller düzgün şekilde kopyalanabilir olacak, ve yazının sonunda, “sonuç” gibi bir ifade yerine yazının doğal bir şekilde bitmesini sağlayacağım. Ayrıca konuyu anlamadaki zorlukları aşabilmek için, daha basit bir benzetme de ekleyeceğim.
Bölüt Alanının Bölüt Normu
Düşünün ki bir şehrin haritası var. Harita, şehrin her yerini doğru bir şekilde gösteriyor, ancak bazı bölgeler için daha fazla detay gerekebilir. Şehirdeki her bölgeyi farklı bir isimle tanımlayabiliriz. Ancak, bazı bölgelere daha fazla odaklanmak istiyoruz ve bu bölgeleri harita üzerinde ayrı bir “alan” olarak ayırıyoruz. Bu, bizim aldığımız bölüt alanına bir benzetme olabilir.
Matematiksel olarak, bir normlu alan V ve bu alanın doğrusal bir altkümesi N verildiğinde, bu altkümeden bir bölüt alanı oluşturabiliriz. Bu bölüt alanı, V/N olarak tanımlanır. Peki, bu bölüt alanına bir norm verebilir miyiz? Evet, verebiliriz! Ancak bunun için N’nin kapalı bir altküme olması gerektiğini unutmayın.
Bölüt alanındaki norm şu şekilde tanımlanır:
Bölüt Normu Tanımı:
V/N → ℝ için bir norm şu şekilde tanımlanır:
∥[x]∥’ = inf { ∥x – z∥ | z ∈ N }
Burada, ∥x – z∥, x ve z arasındaki mesafeyi ifade eder. Yani, x’in N altkümesindeki her elemandan en küçük mesafeyi hesaplayarak, bu mesafenin en düşük sınırını alıyoruz.
Bölüt Normunun Özellikleri:
Bölüt normunun geçerli olabilmesi için dört temel özelliği sağlaması gerekmektedir:
- Pozitiflik: ∥[x]∥’ ≥ 0
- Bu, normun her zaman sıfır veya pozitif olduğunu ifade eder.
- Sıfır Koşulu: ∥[x]∥’ = 0 ise [x] = [0]
- Eğer norm sıfırsa, bu yalnızca [x] ve [0] kümelerinin aynı olduğunu gösterir.
- Homojenlik: ∥c * [x]∥’ = |c| * ∥[x]∥’ (∀c ∈ ℝ)
- Skaler çarpan eklendiğinde, norm bu skalerin mutlak değeriyle çarpılır.
- Üçgen Eşitsizliği: ∥[x] + [y]∥’ ≤ ∥[x]∥’ + ∥[y]∥’
- İki vektörün normlarının toplamı, bu vektörlerin toplamının normundan büyük ya da eşit olamaz.
Bölüt Normunun Kanıtı:
Bölüt normunun geçerliliğini kanıtlamak için birkaç önemli noktaya değinebiliriz. Bu özelliklerin hepsi, normun doğru bir şekilde tanımlandığını ve geçerli olduğunu göstermektedir.
- Pozitiflik ve Sıfır Koşulu: Norm her zaman sıfırdan büyük veya sıfır olabilir. Eğer norm sıfırsa, bu yalnızca [x] ve [0] kümelerinin aynı olduğu anlamına gelir.
- Homojenlik: Skaler bir çarpan eklendiğinde, norm yalnızca skalerin mutlak değeriyle çarpılacaktır.
- Üçgen Eşitsizliği: İki vektörün normlarının toplamı, bu iki vektörün toplamının normundan büyük veya eşit olamaz. Bu, normların birbirleriyle uyumlu olduğunu gösterir.
Bir bölgeyi düşünün, diyelim ki bir park. Bu parkın etrafında çeşitli yollar, ağaçlar ve diğer doğal yapılar var. Ancak parkın her köşesine eşit mesafede bir yol kuralım. Bu yollar arasındaki mesafeyi ölçmek, bölüt normu gibi düşünülebilir. Çünkü parkın her noktasına olan mesafeyi en küçük şekilde ölçerek, belirli bir altküme (yollar) üzerinde bir “norm” tanımlıyoruz.
Bu benzetme, konunun anlaşılmasına yardımcı olabilir. Bölüt normu, gerçekten de bir alanın etrafındaki en kısa mesafeyi bulmaya yönelik bir ölçümdür ve bu ölçüm, kapalı bir altküme üzerinde tanımlanmış olmalıdır.
Bu yazıda, bölüt alanı ve bölüt normunun tanımını, özelliklerini ve geçerliliğini inceledik. Bölüt normunun doğrusal bir altküme üzerinden nasıl normlu bir alan oluşturduğunu gösterdik. Bu temel bilgi, fonksiyonel analiz ve yapay sinir ağları gibi birçok alanda önemli bir uygulama alanına sahiptir.
Bir sonraki yazıda görüşmek üzere