ÖNE ÇIKAN DETAYLAR
- ChatGPT, Gemini ve Claude gibi büyük dil modelleri (LLM), internetteki kamuya açık materyaller ve kullanıcıların çevrim içi hareketleriyle eğitilmektedir.
- CAPTCHA ve reCAPTCHA testlerindeki görsel seçimleri ve kelime deşifreleri, uzun yıllardır makine öğrenimi ve metin tanıma sistemlerinin iyileştirilmesinde kullanılmaktadır.
- Pokemon Go oyuncularının konum ve kamera verileri sayesinde 30 milyar görsel biriktirilmiş ve gerçek dünyanın sanal bir modeli oluşturulmuştur.
- Sosyal medya platformlarındaki metin ve etiketler, arama motoru geçmişleri ve navigasyon verileri yapay zekanın gelişimine doğrudan ve pasif veri sağlamaktadır.
- Büyük ölçekli veri toplanması; verinin kontrolünün kaybedilmesi, fişleme ve sahte içerik üretimi gibi önemli gizlilik ve güvenlik endişelerini beraberinde getirmektedir.
Kullanıcılar, internette yararlandıkları gündelik hizmetler aracılığıyla farkına varmadan yapay zeka araçlarının eğitilmesinde rol oynuyor.
Yapay zeka teknolojileri arasında insansı metinler üretebilen ChatGPT, Gemini ve Claude gibi büyük dil modelleri (LLM) günde çok sayıda insan tarafından kullanılıyor.
Bu modellerin eğitilmesindeyse kitaplardan, internet sitelerinden, makalelerden ve diğer yazılı materyallerden elde edilen metinler kullanılıyor.
Eğitim materyali, kamuya açık kaynaklardan toplanabilse de son dönemdeki tartışmalar, bu sürecin internet kullanıcılarının çevrim içi hareketlerinden derlenmesine yoğunlaşıyor.
"Robot değilim" kutucuğunun görünmeyen mesaisi
İnternette bir hizmete erişimden önce kullanıcının robot değil de insan olduğunu teyit etmeye yönelik "CAPTCHA" ve "reCAPTCHA" testleri, teknoloji firmaları için bir güvenlik önleminden daha fazlası olarak görülüyor.
Kullanıcıların, önlerine sunulan görsellerdeki harfleri yazması veya belirli nesneleri ayırt etmesi gibi basit görevler isteyen bu testlerin, yapay zeka araçlarının eğitiminde kullanıldığı yıllardır tartışılıyor.
Google’ın kullandığı testlerde sık sık yaya geçitleri, trafik lambaları ve taşıtlar gibi nesnelerin sorulması, bunlardan elde edilen verilerin yapay zeka destekli insansız araçlar için kullanıldığına yönelik iddiaların ortaya atılmasına neden oldu.
Bir Google Cloud sözcüsü, yaptığı açıklamada, "reCAPTCHA kullanıcı verileri, reCAPTCHA hizmetini iyileştirme dışında hiçbir amaç için kullanılmamaktadır ve bu durum, hizmet şartları sözleşmesinde açıkça belirtilmiştir." ifadesini kullandı.
Cep telefonundaki oyundan gerçekçi dünya haritası
Gündelik kullanımların yapay zeka eğitiminde kullanılması tartışmaları son günlerde oyunlar gibi başka alanlara da sıçradı.
ABD merkezli Niantic firmasının 2016’da piyasaya sürdüğü ve kısa sürede pek çok ülkede büyük kitle kazanan "Pokemon Go" adlı oyun, son dönemde eleştirilerin odağında yer alıyor.
Oyuncuların, "Pokemon" çizgi dizisindeki karakterleri, cep telefonlarındaki GPS ve kameralar aracılığıyla gerçek dünyada aradığı oyun, sokak görüntülerinden oluşan büyük bir veri havuzunun oluşmasını sağladı.
MIT Technology Review dergisinin haberine göre, Niantic’in yapay zeka şirketi Niantic Spatial, oyuncuların biriktirdiği 30 milyar görseli kullanarak gerçek dünyanın gerçekçi sanal modelini üretti.
Niantic, bu sayede kişilerin etrafındaki görüntülerin fotoğraflarını yükleyerek konumlarını haritada görmesini sağlayan bir teknoloji geliştirdiğini açıkladı.
Firma ayrıca bu modellemeyi kullanarak GPS’in güvenilir olmadığı yerlerde robotların hareketini kolaylaştıracak bir teknoloji hedefliyor.
Firmanın internet sitesinden Kasım 2024’te yapılan açıklamada da oyuncuların gerçek dünyayı tarayarak sunduğu verilerin kullanıldığı doğrulanmış ancak bu özelliğin "tamamıyla opsiyonel" olduğu vurgulanmıştı.
Kullanıcılar, LLM’lerin iyileştirilmesine doğrudan katkı sağlıyor
İsviçre’deki Lozan Üniversitesinden Profesör Christian Peukert, yapay zekanın eğitiminde kullanılan materyaller ile internet kullanıcılarının güvenliği ve mahremiyeti arasındaki dengeleri değerlendirdi.
Profesör Peukert, CAPTCHA testlerinin eski versiyonlarında kullanıcıların deşifre etmesi istenen kelimelerden birinin sistem tarafından bilindiğini, diğerinin ise bilinmediğini belirtti.
Peukert, sistemin tanıdığı kelimenin, kullanıcının insan olduğunun doğrulanmasında kullanıldığını, bilinmeyen sözcüğe verilen yanıtın ise e-kitap uygulamaları gibi dijitalleşme çabaları kapsamında veri olarak depolandığını anlattı.
Bunun "kullanıcıların, metin tanıma sistemlerinin iyileştirilmesine doğrudan katkıda bulunduğu" anlamına geldiğini vurgulayan Peukert, "Yapay zekanın eğitiminin büyük kısmı, kullanıcıların çoğunlukla fark etmeyerek internette ürettiği pasif verilere dayanıyor." ifadesini kullandı.
Görüntü platformlarında etiketler, görsel verinin etiketlenmesine katkı sağlıyor
Christian Peukert, reCAPTCHA’nın haricinde internetteki verilerin yapay zeka eğitimi için kullanıldığı alanlara örnekler vererek, şunları kaydetti:
"Reddit ve Twitter gibi sosyal medya platformları, dil modellerini eğiten büyük miktarlardaki metinleri sağlıyor. Instagram gibi görüntü platformlarında (paylaşımlara eklenen) açıklamalar ve etiketler, görsel verinin etiketlenmesine katkı sağlıyor. Google’daki aratmalar, dil anlama ve sıralama sistemlerinin geliştirilmesine yardımcı oluyor. Google Haritalar ve Waze gibi navigasyon uygulamaları, tahmin modellerinin eğitildiği hareket verilerini topluyor. Sohbet robotları ve sesli asistanlarla görüşmeler genelde kayıt altına alınıyor ve sistemleri iyileştirmede kullanılıyor."
Gizlilik ve güvenlik açısından endişeler
Bu süreçlerin gizlilik ve güvenlik açısından sorunları olduğunu vurgulayan Christian Peukert, büyük ölçekli veri birikiminin "fişlemeye", "sahte içeriklerin üretilmesine" ve "kullanıcıların kendileriyle rekabet eden sistemleri beslemesine" yol açabileceğini ifade etti.
Profesör Peukert, bireysel tedbirlerin veri kullanımını azaltma konusunda tek başına yetmeyeceğinin altını çizerek "Eğitim için kullanılan verilerin çoğu çoktan toplanmış halde, kamuya açık şekilde veya sistemler arasında çoğaltılmış durumda bulunuyor. Veriler büyük veri kümelerine bir kere dahil edildiğinde kontrolü geri kazanmak zordur." değerlendirmesinde bulundu.
Öte yandan, Peukert, bu veri katkısının bazı faydaları da olduğuna işaret ederek insan kaynaklı verilerin dil teknolojileri, çeviri, erişilebilirlik araçları, bilimsel çalışmalar ve arama motorları gibi gündelik hizmetlerdeki kullanımını örnek gösterdi.







