Benford'un savı
Vikipedi, özgür ansiklopedi
Benford'un savı, birinci-tamsayı savı olarak da anılır. Buna göre birçok pratik gerçek hayat verileri kaynakları bir seri sayı listesi olarak verilirse en kullanılan ilk rakkam (1/3 olasılıkla) 1'dir ve diğer ilk rakkamlara gelince kullanılan tamsayılarin değerlerinin olasılığı gidikçe azalma gösterir. Örnegin ilk sayının 9 olması olasılığı 1/20den daha küçükdür. Bu ifadenin dayandığı açıklama nedeni pratik gerçek dünya ölçümlerinin genellikle logaritma olarak dağıldığı ve bunun bir sonucu olarak genel olarak pratik gerçek dünyada ölçme suretiyle ele geçen değerlerin logaritmalarının dağılımının genel olarak tekduze dağılım olduğudur.
Bu beklenmedik ve ilk bakışta pek mantikî görünmeyen sonuç çok genis alanda sayısal verilere uygulanabilmektedir. Örnegin elektrik kullanım faturaları, sokak adres numaraları, hisse senedi fiyatları listeleri; ölüm hadleri; nehir uzunlukları; fiziksel sabitler ve matematik sabit değerler ve (doğada çok olarak gözlemlenebilen) güç savları tarafından açıklanabilen sürecler Benford'un savına uyma göstemektedir. Daha saşırtıcı ve daha mantıksal olmaktan ayrılan taraf, bu sonucun verilerin sayı bazının değiştirilmesi halinde bile (oranların değişmesine rağmen) geçerli olmasıdır.
Bu savın adı, bu savi 1938de ortaya koyan fizikçi Frank Benford anılarak konulmuştur. Gercekte, bu savın açıkladığı olaylar ilk defa 1881de Simon Newcomb tarafından "Note on the Frequency of Use of the Different Digits in Natural Numbers (Doğal Numaraların Değişik Sayısal İfadesinin Kullanış Sıklığı Hakkında Not) adlı makalede açıklanmıştır. Bu savın en matematiksel açıklaması ve matematiksel isbatı 1988de Theodore P. Hill yapılmıştır. [1]
Konu başlıkları |
[değiştir] Mathematiksel ifade
Daha kesin olarak, Benford'un savı, başlangıç tam-sayısı olan '(eğer b≥ 2 ise) b bazında d sayısının (yani d ∈ {1, …, b − 1} ) ortaya çıkmasının
logb(d + 1) − logbd = logb((d + 1)/d)
değerine orantılı bir olasılıkla olduğunu ileri sürmektedir.
Eğer d ilk tam-sayı ve p ise olasılık ise, 10 bazi] ile verilen veri ilk rakkamların dağılımı, Benford'un savına göre şöyle olacaktir:
d | p |
---|---|
1 | 30.1% |
2 | 17.6% |
3 | 12.5% |
4 | 9.7% |
5 | 7.9% |
6 | 6.7% |
7 | 5.8% |
8 | 5.1% |
9 | 4.6% |
Buna dayanılarak ilk iki tamsayı hakkında şöyle bir kural ortaya atılabilir: Her veri için ilk iki rakkam ihtiva eden blokun meydan çıkma olasılığı 'n ye eşittir ve n = 10, …, 99
- log100(n + 1) − log100(n)
olur. İlk sıfır içermeyen üç rakkamdan oluşan blokların ve daha uzun olan blokların olasılıkları da benzer şekilde ortaya çıkaratılabilir. (Gerçekten, b bazında p tane ilk rakkam Benford'un savı sonucu bp bazında olan birinci ilk rakkamlar iıin Benford'savının sonucunu hemen takip ederler.)
Bu savın neyi açıkladığı şöyle de anlatılabilir: Herhangi bir rakkam 10'un bir üssü ve bir m (eğer 1≤m<10) değerde bir mantis (mantissa) ile çarpımı olarak yazılabilir. Benford'un savı doğru ise verinin mantislerinin dağılımı bir 1/x dağılımı gösterecektir. Birçok kişi bu prensipin sonucu olarak eldeki (normalize edilmeyen) veri rakkamların dağılımın da aynı dağılımı göstermesi gerektiğine yanlış olarak inanmaktadırlar. Benford'un savı yanlızca mantis dağılımının (1den 10a sınırlanmış olarak) Benford savına göre dağılmasına ilişkilidir.
Bu dağılımın ortaya çıkmasının sürpriz yaratmaması gereği [1] verilerin logaritmalarinin geçerlilik alanlarına bakışla açıklanabilir. Orijinal veri dağılımının bir mantis dağılımına indirgenmesi verimizin logaritma değerinin kesirsel tarafının dağılımının incelenmesine dönüştürülmüştür. Bu dağılımın genişliği 0 ile 1 arasıdır. Herhangi bir dağılımı bu türlü değiştirmenin sonucunda verinin kesirsel tarafının yaklaşık olarak bir tekdüze dağılım ortaya çıkaracağı kolayca görülebilir. (Çünkü dağılımın kuyruğunun eğimleri 0-1 arasında eğim değerlerine dönüştürülmekte ve altaki ve üsteki kuyruktaki eğimler birbirini elimine etmektedirler.) Logaritma değerinin kesirsel tarafının yaklaşık tekdüze dağılımı göstermesi doğrudan doğruya orijinal verilerin yaklaşık 1/x dağılımı göstermesinin karşılığıdır. Bu doğal olarak, verilerin 1 ile 10 arasında bulunması olabilirliginin 1000 ila 10000 arasında olmasından daha büyük olmasına bakmadan uygulanabilir.
[değiştir] Açıklama
Bu savın açıklaması, eğer ilk tamsayıların belirli bir dağılımı gerçekte bulunursa bu dağılımın ölçme birimlerinden bağımsız olması gerekliliğine dayandırılır. Orneğin, eğer uzunluk ölçülerimizi santimetreden milimetreye çevirirsek (yani bir sabit 1/10 ile çarpım işlemi uygulanırsa), dağılımın değişmemesi gerekir - yani dağılım ölçekle değişmez. Bu gerçeğe uyan tek istatistik dağılım logaritması tekdüze olan dağılımdır.
Örneğin, herhangi iki nesne arasındaki uzaklığın sıfır olmayan ilk tamsayısı için dağılım, bunun santimetre, milimetre, hatta inç veya yarda biriminde/ölçeğinde olmasına bakmadan, ayni şeklini koruyacaktir. Yani eğer ilk tamsayılar için belirlenen bir dağılım varsa, o dağılım verinin ne ölçekte olduğuna hiç dayanmadan uygulanabilecektir.
Daha matematiksel deyimle, X bir rassal değişken ise ve bu değişken olasılığı herhangi bir pozitif tamsayı olan x'e eşit olması (eğer s>1 ise) s−s değerine oranlıdır; yani
- .
Bu oran için sabit 1/ζ(s) olur ve burada ζ Riemann zeta fonksiyonu olur (bakın zeta dağılımı). X içindeki ilk tamsayının n olmasının olasılığı, s değeri 1'e yaklaştıkca
log10(n + 1) − log10(n)
ifadesine yaklaşır.
Benford'un savının şeklinin çok daha kesinlikle açıklanması eğer sayıların "logaritma" değerlerinin tekdüze dağılım gösterdiği varsayımının gerçekte doğruluğu ile mümkün olabilir. Bu demektir ki bir sayının 100 ile 1000 arasında (yani logaritma ile 2 ile 3 arasında) olması, 10,000 ile 100,000 (logaritma ile 4 ile 5 arası) olması ile aynı olasılıktadır. Bir çok veri sayılar, özellikle gelirler, hisse senedi, borsa fiyatlari vb gibi üstel büyüme gösteren değişkenler için bu pratiğe gerçeklere uygun bir varsayım olacaktır.
Bunun nasıl ortaya çıktığı için bir basit örnek verilebilir. Bir nesne miktarının üstel bir oranda büyüme göstermesi demek bu artış haddinin bir sabit olduğunu kabul etmektir. Eğer miktarin iki misline büyümesi bir yil gerektiriyorsa, gelecek yil da tekrar iki misli büyüme gösterecek demektir ve bu şekilde 3. yılda da ve diğer yıllarda iki kat artma devam edip duracağı varsayılıdır. Düşünelim ki her yıl iki misli artış gösteren bir nesneyi ölçmek için başlama anınin sayının 100e geldiği zaman olduğunu kabul edelim. Butun birinci yil sayisının ilk rakkamı 1 olacaktır. Ikinci yil için ilk rakkam ancak ilk yedi ay için 2 olacaktır ve diğer beş ay 3 olacaktır. Üçüncü yilda ise sayının ilk rakkamı 4, 5, 6 ve 7 yi aşacak ve takip eden rakkamlardan daha çok uzaklaşmaya başlıyacaktır. Dördüncu yılın hemen başlarında ilk rakkam 8 ve 9 değerlerini geçecektir ve miktarın değeri 1000'i aştığı zaman bu sürec yeniden başlıyacaktır.
Bu örnekten kolayca görülmektedir ki eğer miktar değeri bir yıl içinde rassal zamanlarda örnek alıp ölçülürse, örnek ölçulmesinde bulunan en olabilir ilk rakkam değeri 1 olacaktır. Bunu takip eden ölcmelerde değer için daha büyuk ilk rakkamlar bulunması, degerin daha yuksek ilk rakkamlara geçiş göstermesi dolayısıyla, çok daha az olabilirlilikte bulunacaktır.
Buna göre üstel olarak büyüme gösteren miktarlarin ölçülmesi sonucu ele geçirilen tabloların Benford'un savı kurallarına uymaları çok imkan dahilindedir. Ancak şunu da hatırlamlıdır ki bir çok halde üstel büyüme şekli göstermeyen sayılar için bile Benford'un savı uygulanabilir.
Şuna dikkatin çekilmesi gerekir ki eğer eldeki sayılar çok değişik cesitli dağılımlardan ortaya çıkartılmışlarsa, örneğin zeka testi sonuçları, kişilerin boyları gibi değişik normal dağılım gösteren değişkenlerse, bu sav geçerli olmayacaktır. Fakat, bu rakamlar ana kaynaktan değil diger sayılarda karışık diğer bir kaynaktan elde edilmişlerse (örnegin anket sonuçlarını 'karışık' olarak veren bir makeleden) Benford'un savı tekrar geçerli olmaya başlayacaktır. Hill [1998] matematikle isbat etmiştir ki eğer bir arastırmacı "rassal" olarak bir sıra olasılık dağılımı seçerse ve sonra da seçtigi dağılıma uyan bir sayı seçerse, sonuç olarak ortaya çıkan sayılar için Benford'un savı uygulanabilir.
[değiştir] Uygulamalar ve sınırlamalar
1972de Hal Varian hazırladığı bir yazıda bu savın bir ülke çapında planlama projesi için sunulan sosyo-ekonomik verilerin listesinde bir hilebazlık yapılıp yapılmadığı hakkinda incelemeye baz olabileceğini iddia etmiştir. Bu açıklamaya göre uydurma istatistik yaratıcılarının kullandıkları tek sayılar bir tekörnek dağılıma yaklaşık olacaktır. Böylece kullanılan verilerin ilk rakkamının frekans dağılımı ile Benford'un savına göre çıkartılan beklenen bir frekans dağılımı karşılaştırılması herhangi bir uyuşmazlık gösteren veriyi ortaya çıkaracaktır. Sonuç olarak bu uyuşmazlık gösteren verinin uydurma olabileceği çok mümkün görülecektir; fakat bu istatisksel sonuç zayif bir delil olduğu için mümkün hilebazlığın isbat edilmesi için daha ince ve detaylı inceleme gerekecektir. [2]
Bu görüş benzeri bir çalışma J.Nye ve C.Moul (2007) tarafından uluslararası makroekonomik verilerin incelenmesi ile yapılmıştır. Bu çalışmada Dünya Bankası tarafından toplanan uluslararası gayrisafi millî hasıla istatistikleri incelenmiş ve çok büyük bir kısmının bu sava uygun olduğu görülmüştür. Ancak küçük bir sayıda ülkeler için, genellikle gelişmekte olan ülkeler icin, gayrisafi milli hasila istatistiklerinin bu sava uymadığı ortaya çıkmıştır. Bu sonuç asıl orijinal sayıların bürokratik ve politik karışım ile değiştirildiğine bir inananilabilir gösterge olduğu iddiasını ortaya çıkartmıştır.
Son zamanlarda Benford'un savının bu türde araştırma için diğer pratik kullanış alanları olacağı anlaşılmıştır. Bunlar arasında büyük firmaların fiyatlama stratejilerini tekelcilik yapmadıklarını savunmak için sundukları fiyat listeleri, yıllık ve diğer periyodik muhasebe hesapları sunuları, vergiden düşülebilen masraflar için sunulan veriler, hasar sigortası talepleri, yeni ilaçlar için kliniksel denemeler, milli seçim sonucları gibi konularda incelemelerin yapılması mümkün görülmektedir ve hatta bu konu türünde bazı pratik araştırmalarin sonuçları bilimsel eser olarak yayınlanmıştır. ref>Sehity, Tarek el; Hoelzl, Erik & Kirchler, Erich (December 2005), “Price developments after a nominal shock: Benford’s Law and psychological pricing after the euro introduction”, International Journal of Research in Marketing 22 (4): 471–4 url=http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6V8R-4HDP6TR-1&_user=10&_coverDate=12%2F31%2F2005&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=23171667aea48646882b2ec73d590b5c</ref>
Ancak, bu tür uygulamaların sonuçlarını incelemek dikkat gerektirmektedir. Bir grup pratik gerçek hayat örneği bu sava uygunluk göstermiyebilir; çünkü kullanılan veri kategorisinin içindeki sayıların dağılımı rassal olarak dağılımın çarpık kuyruğunda bulunmuş olabilirler.
[değiştir] Tarih
Benford'un savının açıkladığı gerçegin keşfedilmesi 1881e kadar geri gider. O tarihte bir Amerikan astronomu olan Simon Newcomb astronomi hesapları yaparken kullandığı logaritma cetvellerini ihtiva eden kitapların başlangıcındaki sayfaların sonraki sayfalardan daha çok kullanılması dolayısı ile zarar gördüğünü gözümlemiştir. Bu çok kullanma belirtileri sırf sayfaların çok kullanılması şeklinde ise sadece sayfa uçlarında eski izleri görümesi beklenmekteydi; halbuki herhangi bir sayfayı kullananların sayfanın içindeki sayı satırlarına da baktıklarını, satır takip ederken bıraktıkları parmak izleri görülmesi ile açıklanmıştır.
Ancak bu hikayenin biraz abartıcı olduğu gerçektir. Çünkü logaritma cetveli kitapları sadece logaritma değerleri değil, antilogaritmaları ve çok kere üsler, kökler, sinuslar, cosinuslar ve benzeri trigonometri cetvelleri de ihtiva etmektedir. Bununla beraber, Newcombe'un yayımladığı makale birinci rakam dağılımları hakkında ilk açıklamayi ihtiva etmekte ve ikinci rakam dağılımı hakkında da bilgileri de kapsamaktadadır. Newcomb'un yazısında, N değerde herhangi bir sayının birinci rakaminin log(N+1) değerde olacağı öne sürülmektedir.
Aynı gerçek 1938de daha geniş alanlarda bulunan veri gruplarını inceleyen fizikçi Frank Benford] tarafından da tekrar keşif edilmiştir. 1996da Ted Hill bu sonucun karışık dağılımlara da uygulanabilineceğini isbat etmiştir.
[değiştir] Popüler kültürde kullanış
Benford'un savı Amerikan televizon şirketi CBS]in hazırladığı NUMB3RS adlı bir televizyon serisinin The Running Man (Koşan Adam) adlı bölümü için temel kurgu aleti olarak kullanılmıştır.
[değiştir] İçsel kaynaklar
- Adlî muhasebe
- Kesin hesap kontrolu
[değiştir] Kaynak
[değiştir] Dipnotları
[değiştir] Referanslar
Şablon:Refbegin
- Frank Benford (March 1938). "The law of anomalous numbers". Proceedings of the American Philosophical Society 78 (4): 551–572. (subscription required)
- Theodore P. Hill (July–August 1998). "The first digit phenomenon". American Scientist 86: 358.
- Simon Newcomb (1881). "Note on the frequency of use of the different digits in natural numbers". American Journal of Mathematics 4 (1/4): 39–40. (subscription required)
- Wendy Cho and Brian Gaines (August 2007). "Breaking the (Benford) Law: statistical fraud detection in campaign finance.". The American Statistician 61 (3): 218–223. DOI:10.1016/j.ijresmar.2005.09.002.
- L.V.Furlan (June 1948). "Die Harmoniegesetz der Statistik: Eune Untersuchung uber die metrische Interdependenz der soziale Erscheinungen". Reviewed in Journal of the American Statistical Association 43 (242): 325–328.
Şablon:Refend
[değiştir] Dışsal Bağlantılar
[değiştir] Bilgisayarda bulunan kullanma aletleri ve yazılımlar
- Benford'un savını kullanarak veri analizi için bedelsiz Java aleti
- Statistics::Benford Benford'un savı'ndan sapmaları hesaplayan Perl modülü
- Benford alt grupları üreten bir komputer yazılımı
[değiştir] İnternet Siteleri
- Benford'un savı ve Zipf'in savı cut-the-knot sitesinde
- Benford'un savına bakış veya Sayi 1'in görünüşü
- [http://www.bbc.co.uk/radio4/science/further5.shtml Beş tane tamsayı daha: sayi 1 ve Benford'un savı hazırlayan Simon Singh
- Benford'un savını gösteren bir Flash uygulamasi, hazırlayan William Fawcett
- Bir 1 sayısına bir bakış hazırlayanlar Jon Walthoe, Robert Hunt ve Mike Pearson, arti Magazine, Eylul 1999
- Şablon:MathWorld
- "Benford's Law" hazırlayan Paul Niquette
- [http://www.mathpages.com/home/kmath302/kmath302.htm Benford'un Savı MathPages sitesinde
- Benford'un savının gizeminin DSP ile çözülüşü
Tek değişirli | Çok değişirli | |
---|---|---|
Aralıklı: | Benford ·
Bernoulli · Binom · Boltzmann · Kategorik · Bileşik Poisson · Aralıklı faz tipi · Bozulmuş Gauss-Kuzmin · Geometrik · Hipergeometrik · Logaritmalı · Negatif binom · Parabolik fraktal · Poisson · Rademacher · Skellam · Aralıklı tekdüze · Yule-Simon · Zeta · Zipf · Zipf-Mandelbrot |
Ewens ·
Multinom · Çok değişirli Polya |
Sürekli: | Beta ·
Beta prime · Caucy · Ki-kare · Dirac delta fonksiyonu · Cox tipi · Erlang · Üstel · Üstel güç · F · Fermi-Dirac · Fisher'in z · Fisher-Tippett · Gamma · Genelleştirilmiş uçsal değer · Genelleştirilmiş hiperbolik · Genelleştirilmiş ters Gauss-tipi · Yarı-logistik · Hotelling'in T-kare · Hiperbolik sekant · Hiper-üstel · Hipo-üstel · Ters ki-kare · Ölçeklenmiş ters ki-kare · Ters Gauss-tipi · Ters gamma · Ölçeklenmiş ters gamma · Kumaraswami · Landau · Laplace · Lévy · Lévy çarpık alfa-durağan · logistik · Log-normal · Maxwell-Boltzmann · Maxwell hızı · Nakagami · Normal (Gauss tipi) · Normal-gamma · Normal ters Gauss-tipi · Pareto · Pearson · Faz-tipi · Kutupsal · Yükseltilmiş kosinus · Rayleigh · Relativistik Breit-Wigner · Rice · Rosin–Rammler · Kaydırılmış Gompertz · Student'in t · sürekli tekdüze Üçgensel · Kesilmiş normal · Tweedie · 1.tip Gumbel · 2.tip Gumbel · Varyans-Gamma · Voigt · Von Mises · Weibull · Wigner yarımdaire · Wilks'in lambda |
Dirichlet ·
Genelleştirilmiş Dirichlet · Ters-Wishart · Kent · Matris normal · Çokdeğişirli normal · Çokdeğişirli Student · Von Mises-Fisher · Wigner benzeri · Wishart |
Çeşitli: |
Çiftmodlu · Kantor · Koşullu · Denge · Üstel ailesi · Sonsuz bölünebilirlilik (olasılık) · Konum-ölçeği ailesi · Marjinal · Maksimum entropi · Sonrasal · Öncel · Olasılık-benzeri · Örneklem · Singüler · Tekmodlu |