

Küçük Yapay Zeka Şirketleri İçin Yapay Zeka Eğitimi
İçin Veri Kaynağı Kısıntısı:
1--Yapay zekâ teknolojisinin
hızlı gelişimi, beklenmedik bir sorunla karşı karşıya: Veri kıtlığı. MIT
öncülüğündeki Data Provenance Initiative'in yeni araştırması,yapay zekâ
modellerini eğitmek için kullanılan içeriklerde önemli bir düşüş olduğunu
ortaya koydu.
2--Araştırmacılar, yaygın
olarak kullanılan üç yapay zekâ eğitim veri setinde yer alan 14.000 web alanını
inceledi. Sonuçlar,yayıncıların ve çevrimiçi platformların verilerinin yapay
zekâ firmaları tarafından izinsiz toplanmasını önlemek için adımlar attığını
gösteriyor.
2.1--En kaliteli kaynaklardan
gelen verilerin %25’i artık kısıtlanmış durumda. Bu kısıtlamalar genellikle
"Robots Exclusion Protocol"adı verilen, web sitesi sahiplerinin
otomatik botların sayfalarını taramasını engellemek için kullandıkları eski bir
yöntemle gerçekleştiriliyor.
2.2--Ayrıca, bazı veri
setlerinde kullanım şartları nedeniyle verilerin %45’e varan oranlarda
kısıtlandığı görülüyor. Bu durum, yapay zekâ geliştiricileri için ciddi bir
sorun teşkil ediyor.
3-- ChatGPT, Google'ın
Gemini’si ve Anthropic'in Claude’u gibi popüler yapay zekâ araçları,
milyarlarca metin, görüntü ve video örneğiyle besleniyor. Daha fazla kaliteli
veri, genellikle daha iyi çıktılar anlamına geliyor. Geçmişte veri toplamak
nispeten kolaydı. Ancak son yıllardaki yapay zekâ patlaması, veri sahipleriyle
gerilimlere yol açtı.
3.1--Bazı yayıncılar ücretli
dijital bariyerler kurdu veya verilerinin yapay zekâ eğitiminde kullanılmasını
sınırlamak için kullanım şartlarını değiştirdi. Redditve StackOverflow gibi
siteler, yapay zekâ şirketlerinden veri erişimi için ücret almaya başladı.
4--Bu kısıtlamalar, özellikle
küçük yapay zekâ şirketleri ve akademik araştırmacılar için sorun yaratabilir.
Büyük teknoloji şirketleri zaten kaliteli verilerin kullanım hakkını almışken
sonradan gelen veya bağımsız aktörler aşılması zor bir "veri duvarı"
ile karşılaşıyor.
4.1--Yani herkesin işlemesine
açık olarak sunulan internetteki tüm eğitim verilerinin tükendiği ve geri
kalanının ücretli duvarlar arkasında saklandığı veya özel anlaşmalarla
kilitlendiği bir durumla karşı karşıyayız.
4.2--Bu durumun yapay zekâ
gelişimini nasıl etkileyeceği henüz belirsiz. Ancak kesin olan bir şey var:
Veri artık yapay zekâ dünyasında en değerli emtia haline geldi ve bu kaynağın
kontrolü için mücadele yeni başlıyor.
Kaynak:Bilim
ve Teknik-https://nyti.ms/3zLJlqcs