Burak Doğrul
9 min readMar 22, 2021

MAKALE İNCELEMESİ-1: ŞOV DÜNYASINDAKİ OYUNCULARIN KARİYER ZİRVESİNE ULAŞTIKLARINI TAHMİN EDEBİLİR MİYİZ?

İlk makale inceleme yazıma hoş geldiniz. Amacım veri bilimi veya veri bilimine yakın alanlarda yazılmış makaleleri Türkçe bir şekilde inceleyerek akademik alanda olan gelişmeleri takip etmek olacak. Ayrıca bir sonraki yazıda bu makaledeki ana fikri ele alarak benim elde ettiğim Türk aktör ve aktrislere ait verilerle ilgili bir makine öğrenmesi algoritması geliştireceğim.

Bugünkü analiz edeceğim makale Oliver E. Williams, Lucas Lacasa ve Vito Latora’nın beraber yazmış olduğu etki değeri (impact factor) 12,121 olan Nature Communications’ta yayınlanan “Quantifying and predicting success in show business” başlıklı makale olacak. Ek olarak bu makale Guardians ve Times’da da kendine yer buldu.

Guardians’taki yazı için

Times’taki yazı için

Makaleye geçmeden önce kısaca yazarları bir tanımakta fayda var.

Vito Latora

Öncelikle Vito Latora ile başlamak istedim. Queen Marry University of London’da çalışan İtalyan fizik profesörüdür. Kompleks ağ sistemleri üzerine çalışıyor ağırlıklı olarak. Aynı zamanda Complexity Science Hub Vienna’da görevli ve Queen Marry University of London’da karmaşık sistemler topluluğunun başkanı. Takip edilmesi gerekli bir isim kendisi. Değişik ve ilgi çekici çalışmaları olabiliyor. Yeri geldiğinde sadece Vito Latora için bir yazı kaleme alabilirim.

Detaylı olarak incelemek isteyenler için: http://www.maths.qmul.ac.uk/~latora/

Lucas Lacasa

Lucas Lucasa, Vito Latora’nın eski öğrencilerinden. Queen Marry University of London’da okutman olarak görev yapıyor. Vito Latora biraz daha teorik işleri seven birisi o yüzden uygulama alanında yardımcı oluyor diyebiliriz.

Detaylı olarak incelemek isteyenler için: http://www.maths.qmul.ac.uk/~lacasa/main.html

Oliver E.Williams

Vito Latora’nın doktora öğrencisi. Kendisi hakkında çok fazla bilgi olmasa da Lucas Lacasa gibi teorik bilgileri uygulamaya geçirmek ve araştırma yapma konusunda Vito Latora’ya yardımcı oluyor. Yine aynı şekilde kompleks ağ sistemleri üzerine çalışıyor

Bilgi için: https://www.qmul.ac.uk/maths/profiles/williamso.html

Bir de ufak bir bilgi vereyim. Sıralamada gördüğünüz gibi ilk sırada Oliver Williams var. Bunun anlamı aslında şu: Makalede en çok emek gösteren kişiyi ilk sıraya yazarlar genelde. Çalışmada doktora öğrencisi varsa onu onure etmek için ilk sıraya yazılabiliyor. Tabi Türkiye’de durum biraz farklı olabilir.

Özet

İşsizlik oranlarının %90’a vardığı film ve televizyon sektöründe sürdürülebilirlik ve üretkenlik başarıyı ölçmek için önemli bir etkendir. Aktör ve aktrislerin faaliyetleri zamansal bir profilde incelenmiştir. İş alma dinamiklerinin zengin daha çok zenginleşir (rich gets richer) aforizmasıyla daha iyi tanımlandığını gösteriliyor ve aktif olarak geçirilen kariyer yüzdesinin tahmin edilemez olmasına rağmen bu tür aktivitelerin kümelendiğini görülüyor. Üretkenlik daha çok kariyerin başlangıcında olma eğiliminde ve en üretken yıldan (annus mirabilis) önce bunun sinyalleri alınabiliyor. Buna göre annus mirabilis’in geçip geçmediğini veya daha iyi günlerin gelip gelmediğini %85 başarı oranıyla tahmin eden bir makine öğrenmesi algoritması oluşturdukları öne sürülüyor. Çalışmada aktör ve aktrisler ayrı ayrı analiz ediliyor ve gösteri dünyasındaki cinsiyet ön yargısına dair ikna edici kanıtlar sağlanıyor.

Sonuçlar:

Çalışma 1.512.472 erkek oyuncu 896.029 kadın oyuncu olmak üzere 2.408.501 oyuncunun 1888 ile 16 Ocak 2016 arasındaki kayıtları alınarak yapılmıştır. IMDB üzerinden çekilen veri her bir oyuncunun belirtilen yılda kaç iş yaptığını sayılarak oluşturulmuştur. Tipik bir kariyeri aşağıdaki grafikteki gibi görebiliriz.

Grafikte gördüğünüz gibi sadece aktif olan yıllar değil boş geçirdiği yıllar da mevcut. Grafikte gösterilen oyuncunun kariyer uzunluğu 23 yıl olmasına rağmen aktif olarak 12 senede toplam 17 iş yapmıştır.

Şimdi birkaç tanımlama yapalım:

n (Total Productivity): Kariyeri boyunca toplam yaptığı iş sayısı

L (Career Length): İlk yaptığı iş ile son yaptığı iş arasındaki geçen yıl sayısı

τ (Latent years): Kariyerinde iş yapmadığı senelerin toplam sayısı

s (Active Years): Aktif olarak iş yaptığı yıl sayısı. Aynı zamanda s = L — τ olarak bulabiliriz.

Bir sonraki tanıma geçmeden önce şu notu belirteyim: L >= s olacağından ve t en küçük sıfır olabileceğinden dolayı L >= 1 ve s >= 1 ve s=1 ise ancak ve ancak L=1 ‘dir diyoruz. Yani kariyer uzunluğu 1 sene olan kişinin aktif yıl sayısı 1 olmak zorunda ve dolasıyla boş geçirdiği yıl sayısı 0 olmak zorunda.

Am=m (Max Value): Kariyerinde bir senede yaptığı en yüksek iş sayısı. Yani oyuncunun en iyi yılı.

Bir de aktör yerine erkek oyuncu, aktris yerine kadın oyuncu, annus mirabilis yerine kariyer zirvesi ifadelerini sık sık kullandım yazıda belirtmekte fayda var.

Kariyer uzunluğu için yapılan araştırmada yarı logaritmik ölçekte kariyer uzunluklarının ampirik dağılımlarının P(L) erkek oyuncu ve kadın oyuncular için üstel fonksiyona uygun olduğu görülmüştür.

P(L=1) ve dolayısıyla P(s=1) sadece bir yıl iş yapmış ve sonradan unutulmuş kişilerin yüzdesini temsil etmektedir. İlginç bir şekilde görülüyor ki erkek oyuncuların %69’u ve kadın oyuncuların %68’i bu şekilde sadece bir yıl iş yapmış kişilerden oluşuyor. Bu kadar yüksek oran bize gösteriyor ki gösteri dünyasında böyle bir durum istisna değil.

Kariyer uzunluğu 2 yıl ile 10 yıl arasında olan oyunculara bakıldığında ise kısa süreli kariyere sahip oyuncular arasında kadın oyuncuların erkek oyunculara göre daha kısa oyunculuk kariyeri olduğu görülüyor.

Aktif kariyer uzunluğu için yapılan araştırmada yarı logaritmik ölçekte bakıldığında birçok erkek ve kadın oyuncunun sadece 1 yıl aktif olarak iş yaptığı görülüyor. Daha aktif kariyer uzunluğuna sahip olan oyuncu sayısı, yıl sayısı arttıkça azaldığı görülmektedir. Bu da bize iş dünyasındaki kaynak kıtlığının varlığını yani iş sayısından çok oyuncu olduğunu iddiasının temelini oluşturur.

Toplam üretkenlik (yaptığı iş sayısı) için yapılan araştırmada normalize edilmiş erkek ve kadın oyuncu sayısı ile (erkek oyuncu ve kadın oyuncu sayısı 1 ile 100 arasına sıkıştırılmıştır) ampirik dağılımlarına P(n) baktığımızda kariyer uzunluğu dağılımından farklı olarak γ yaklaşık 2 değeri için güç yasasına tam olarak uyduğu görülüyor.

Toplam üretkenliğin dağılımındaki güç yasası aynı zamanda üretkenliğin sıra frekansı dağılımında ölçeklenmenin varlığını da ifade eder. Güç yasası kısaca daha az sayıda kişi daha çok işi yapar gibi bir ters orantıyı ifade eder.

Formülü:

α ile γ ( α = 1/(γ − 1) ) matematiksel olarak ilişkilidir. Burada geçen α yaklaşık 1 değeri ise bize güç yasasının özel bir hali olan meşhur Zipf’s yasasını verir.

Bu bağlamda, zengin daha çok zenginleşir olgusu açısından toplam üretkenlik için bir güç yasası dağılımının başlangıcı için olası bir mekanizma önerilebilir.

s/L sıfıra veya bire yaklaştığında verimliliğin hızla düştüğü ve orta düzey verimliliğe sahip olanların ise tek tipleştiği görülmüştür. Bu da bize verimliliğin öngörülebilir olmadığını ve orta düzey verimlilik için ortaya çıkan tek korelasyonun s =< L olgusundan geldiğini göstermektedir. Bunu kanıtlamak amacıyla tüm erkek ve kadın oyuncular için s ve L dağılım grafikleri yapılmış olup Pearson korelasyon katsayısı hesaplanmıştır. Sonra bunların içinden rastgele s ve L değerlerinin çıkarılmasıyla oluşturulan bir veri seti (null model) ile tüm değerlerin içerisinde olduğu veri setinin Pearson korelasyon katsayıları karşılaştırılmıştır.

Erkek ve kadın oyuncular için ayrı ayrı s ve L arasındaki Pearson Korelasyon Katsayısı incelendiğinde ikisi için de 0,69 çıkarken, null modelde erkek oyuncular için Pearson Korelasyon Katsayısı 0,60 kadınlar için 0,58 bulunmuştur. Beklendiği gibi s ve L arasındaki ilişki orta düzeyde ilişkilidir ancak bu ilişki null modelle de açıklanabilir. Başka bir deyişle orta uzunluktaki aralıklar için oyuncuların iş sayısı kariyer uzunluklarıyla öngörülemez ve verimliliğin öngörülemeyen bir miktar olduğu sonucuna varılabilir.

İstatistik eksikliğinden kaçınmak için kariyer uzunları 10 yılın altında olan erkek ve kadın oyuncular için bekleme süresi dağılımı P(t) hesaplanmıştır. t değerleri sayılmış ve birikimli frekanslar normalize edilmiştir. 10 yılının altındaki kariyer uzunluklarını incelediğimiz için kısa bekleme süreleri bulma olasılığımız doğal olarak daha yüksektir. Bu nedenle uygun bir karşılaştırma yapılarak rastgele bir null model için Pnull(t) hesaplanmıştır. Zamansal korelasyonun olmaması Pnull(τ) = P(τ) anlamına gelirken, sistematik farklılıklar aktörlerin aktivitesindeki zamansal korelasyonun başlangıcını gösterir. Bunun için P(τ) ‘den Pnull(τ) değerini çıkararak τ fonksiyonunu oluşturulmuştur.

Grafikte de görüldüğü gibi hem erkek hem de kadın oyunlarda t=1 için ve t>1 için P(τ)-Pnull(τ) değerinin kadınların erkeklerden büyük değerde olduğu görülüyor. Yani aktif yıllar olması gerekenden daha fazla kümelenmiş durumda dolasıyla aynı şey daha az hareketliliğin olduğu dönemler için de geçerli. Aynı zamanda bu grafik gösteriyor ki erkek ve kadın oyuncular bir yıl önce çalıştılarsa bir sonraki yıl çalışma ihtimalinin şans eseri beklenenden daha yüksek olduğu anlamına geliyor. Tam tersi olarak da eğer bekleme süresi 1 yıldan uzunsa daha sonra çalışma olasılıklarının anormal derecede azaldığı görülmektedir. Bu sonuç bilim ve sanat alanları gibi yaratıcı meslekler ile yapılan son bulgularla uyumludur.

Ayrıca farklı bekleme süreleri için null modelden sapmaları uygun şekilde karşılaştırmak için yüzdesel göreli farkı ( [P (τ) — Pnull (τ)] · 100 / Pnull (τ) ) hesaplanmıştır. Aşağıdaki grafikte görüleceği gibi kadın ve erkek oyuncular arasında önemli bir fark bulunmaktadır.

Son zamanlarda, bir bilim insanının üreteceği en etkili yayının, kariyerlerinin herhangi bir aşamasında ortaya çıkma olasılığının eşit olduğu bulunmuştur. Bu çalışmada aynı problemi erkek ve kadın oyuncular bağlamında incelenmiştir. Etki yerine araştırılan başarının göstergesi IMDB’deki eserlerin sayısı ile ölçülmüştür.

Çalışmada kariyer uzunluğu eşik değeri 20 yıl olarak, bir yılda yapılan maksimum iş sayısı için ise eşik değeri 5 olarak belirlenmiştir. Yani çalışmada kariyer uzunluğu (L>20) 20'den fazla ve bir yılda yapılan maksimum iş sayısı (m>5) 5'ten büyük olan değerler baz alınmıştır. Bu kriterler göz önüne alındığında kriterleri sağlayan 15357 erkek oyuncu (erkek oyuncuların sadece %1,02’si) ve 5904 kadın oyuncu (kadın oyuncuların sadece %0,65’i) vardır. Bu fark da gösteriyor ki erkek oyuncuların kadın oyunculardan daha fazla sektörde iş bulma şansı vardır.

Aşağıdaki grafikte ise bir erkek oyuncu ve kadın oyuncunun kariyeri içindeki her noktada kariyer zirvesine ulaşma olasılığı görülüyor. Değişen uzunluktaki kariyer uzunluklarını karşılaştırma açısından kariyer uzunluğu 20’den ve bir yılda yaptığı maksimum iş sayısı 5’ten fazla olan oyuncuların kariyer uzunlukları 5 parçaya ayrılmıştır.

Grafikte açık bir şekilde görülüyor ki oyuncular kariyerinin zirvelerine kariyerlerinin ilk beşte birlik bölümünde ulaşıyor ve daha sonra ya daha az iş yapıyorlar ya da unutuluyorlar. Ama grafikte dikkat çeken bir şey var ki o da kariyer zirvesine ulaşmada kariyerlerinin ilk beşte birlik bölümünde kadın oyuncular erkek oyunculara göre daha başarılı olması. Erkek oyuncular kadın oyunculara göre daha sonraki dönemlerde de kariyer zirvesine ulaşıyor.

Daha detaylı incelemek için erkek ve kadın oyuncuların kariyer zirvesi öncesi ve sonrası yaptıkları iş sayısı ele alınış.

Yukarıdaki grafikte (L>20 ve m>5 için) y ekseninde kariyer zirvesine ulaşmış erkek ve kadın oyuncuların ortalama yaptıkları iş sayısı, x ekseninde ise kariyer zirvesi öncesi ve sonrası yıl sayısı gösterilmektedir. k = 0 kariyer zirvesini temsil etmektedir. Bu grafik de gösteriyor ki kariyer zirvesi tahmin edilebilir. Her iki grafikte de ortak olan nokta kariyer zirvesinin yaklaşmakta olduğunu ya da yeni geçtiğini net bir şekilde görebiliyoruz. Karşılaştırma için bir null model oluşturulmuş olup grafikte kırmızı renkte gördüğünüz üzere net bir model ortaya çıkmamıştır. Bu model ile test ettiğimizde erkek oyuncular için yaklaşık %69,2, kadın oyuncular için yaklaşık %75’lik doğruluk payına sahip oluyoruz.

Buna ek olarak yeni bir yaklaşım geliştirmek isteniyor. Temel olarak bir k yılından sonraki yıldaki toplam verimlilik daha büyükse, o yıldan itibaren d noktasına olan katkı sıfırdır. Bu monoton olarak artan bir dizi için eğer her k yılından bir sonraki yıl olan k+1 yılına verimlilik düşüyorsa d noktasına bir miktar katkıda bulunmuştur. İşte bu yeni sınıflandırıcı optimize edilebilen bir d parametresi sunar ve optimize edilir. d parametresi optimize edildikten sonra verimizi test ettiğimizde aşağıdaki hata matrisini (confusion matrix) elde ederiz. COm erkek oyuncular COf kadın oyuncular içindir.

Erkek ve kadın oyuncuların kariyer zirvesine ulaşıp ulaşmadıklarını öğrenmek istenilen çalışmada kurulan makine öğrenmesi algoritması erkek oyuncularda %84’lük kadın oyuncularda %86’lık başarıyla kariyer zirvesine ulaşıp ulaşmadıkları doğru tahmin etmiştir.

Çalışmanın ek kısmında false negative ve false positive’ler ek olarak incelenmiştir ama şu an o konuya girmeyeceğim.

Bu çalışma neden önemli peki. Şöyle düşünelim: Bir firmanız var ve aynı konuda farklı parametrelere de sahip olarak oyunculara veya oyuncuların menajerlerine, oyuncuların kariyer planlaması hakkında danışmanlık verme imkanı sağlıyor. Bu açıdan her türlü veriyi işlenebilir kılmak çok önemli. Bir sonraki yazımda bu makaleyi baz alarak kendi makine algoritmamı geliştireceğim ve bir sonuç elde etmeye çalışacağım.

Okuduğunuz için teşekkür ederim. Hatam varsa affola. Bir sonraki yazıda görüşmek üzere.

Kaynak:

https://www.nature.com/articles/s41467-019-10213-0