Facebook 2016'dan beri alternatif metinler kullanarak fotoğrafları görme engelli kişiler için daha erişilebilir hale getirmeye çalışıyor. Şirketin Otomatik Alternatif Metin (AAT) sistemi, görme engellilerin nesne tanımayı kullanarak Facebook akışındaki görüntüleri anlamasına olanak tanıyan sentetik bir ses kullanıyor. Facebook, sistemde kullanılan yapay zekayı geliştirerek sistemi 10 kat daha güvenilir ve algılanabilir hale getirdiklerini duyurdu.
Şirket, mevcut nesne ve konsept kategorilerini genişletti ve yenilerini ekledi. AAT artık önemli noktaları, etkinlikleri ve hayvan türlerini tanıyabilir. Bu sayede sistem daha detaylı açıklamalar sağlayabilir. Ek olarak, bir fotoğraftaki nesnelerin konumu ve öğelerin göreceli boyutu açıklamalara dahil edilebilir. Bu nedenle artık "Resimde beş kişi var" yerine "Ortada ikisi ortada ve üçü kenarlara dağılmış beş kişinin görüntüsü" şeklinde bir açıklama duyulabilir. Sistem, boyut ve konumlandırmaya göre açıklanan görüntüde hangi öğenin birincil nesne olduğunu belirleyebilecek ve vurgulayabilecektir. Bunu başarmak için Facebook araştırmacıları, milyarlarca herkese açık Instagram görüntüleri ve hashtag'leri kullanılarak zayıf şekilde kontrol edilen veriler üzerinde eğitilmiş bir yapay zeka modeli kullandı. Öğrenme aktarımı adı verilen yeni görevleri eğitmek için makine öğrenimi modellerini bir başlangıç noktası olarak yeniden tasarladılar. Facebook ifadelerinde olasılıklardan bahsettiği için sistemin% 100 doğruluğu tartışmaya açık görünüyor. Şirket, açıklamaların basit kelimelerle anlatıldığı için 45 farklı dilde mevcut olduğunu söyledi. Sistem bir görüntünün tüm detaylarını aktaramasa da görme engelli kişilerin o görüntünün ana temasını daha kolay anlamasını sağlayacaktır.