Veri Bilimi ve Verinin Yolculuğu

İrem Kömürcü
3 min readAug 16, 2021

Veri günümüzün en önemli ve en popüler kaynağı. Her gün kullandığımız uygulamalar, yapay zeka ürünleri, oyunlar, müşteri servisleri, pazarlama trendleri, sosyal medya ve dahası bize verileri sunar ve bizden de verileri alarak büyük bir veri havuzu oluşturur. Bu çok sayıda verinin analiz edilmesi, anlamlandırılması ve ardından kullanabilir hale gelmesiyle de Büyük Veri (Big Data) oluşur.

Photo by Luke Chesser on Unsplash
Photo by Luke Chesser on Unsplash

Veriyi elde etmek, yorumlamak, anlamak ve kullanabilmek verinin yolculuğunu oluşturuyor ve bu yazımızda verinin yolculuğunu detaylı şekilde inceleyeceğiz.

Collect

İlk olarak veriyi toplamakla işe başlıyoruz. Veriyi çeşitli kaynaklardan, çeşitli şekillerde elde edebiliriz. Sensörler, kullanıcılar tarafından girilen veriler, sosyal medya ve dahası veriyi toplayabileceğimiz kaynaklardır. Veri toplamak için çeşitli toollar ve çeşitli teknikler vardır. Veri Bilimi hiyerarşisinde sayacağım tüm basamaklar Data Science Engineer pozisyonunda olan kişilerin pozisyonunu kapsayan işlerdir fakat bu aşama ile spesifik olarak Data Infrastructure Engineer ilgilenir.

Move/Store

İkinci aşama olarak topladığımız verileri bir kaynakta tutmamız gerekiyor. Veri depolama ve bu depolama için alt yapı oluşturma, depolama sırasında güvenilir veri akışı sağlama, gerekirse pipeline belirleme ve data depolama sırasında kullandığımız tüm alt yapılar bu aşamaya aittir. Genelde Data Engineer pozisyonunda olan kişilerin ilgilendiği bir kısımdır.

Explore/Transform

Verimizi depoladıktan sonra bir dizi işlem yapmamız gereklidir. Veriler şuana kadar veri toplama ve depolama haricinde ek bir işleme sokulmadı ve bu aşamada verileri hazırlamamız gerekiyor. Veriler her zaman elimize temiz ve tam olarak istediğimiz şekilde gelmez. Bu yüzden verileri kontrol etmemiz, anormal durumları tespit etmemiz, gerekliyse temizlememiz, işlemlerimize hazırlamamız gereklidir. Bu aşamada temizleme, anomaly tespiti ve bir takım ön işlemlerden geçirmemiz gerekecektir.

Aggregate/Label

Veriler toplandı, depolandı, temizlendi ve şimdi sırada verilerimiz üzerinde işlemlerimiz için özellik seçme ve bu özellikleri etiketleme aşamasına geldi. Veriyi analiz etme, işlemlerimize ve datamıza bağlı işlem yapacağımız metrikleri belirleme, veriyi bölümleme bu aşamada olur ve en önemli aşamalardan biridir. Veriyi depolalamanın ardından yapılan ön işlemler ve sonrasında ilgilenilen bu kısım ile Veri Bilimciler ya da Data Analyst pozisyonunda kişiler ilgilenir.

Learn/Optimize

Aslında artık verimiz hazır ve basit makine öğrenmesi algoritmaları ile verimizi kullanabiliriz. Verimiz ile A/B Testleri gerçekleştirme, deneyler yapma, basit ML algoritmaları yapmak bu aşamada mümkündür.

Veri biliminin en üst ve aynı zamanda en son aşamasında ise yine hazır olan verimiz ile işlemler yapma yer alıyor, fakat bu kısımda verimizi basit ML algoritmaları ile kullanmak yerine Yapay Zeka ve Deep Learning ile büyük algoritmalar ve farklı hesaplama teknikleri ile kullanıyoruz.

Bu yazımızda Veri Bilimi hiyerarşisini, verinin serüvenini, neler yapabileceğimizi ve bu kısımlarla ilgilenen Data Science meslek gruplarını gördük.

Düzenli olarak kaynak önerileri ve teknik yazılar yazmaya çalışıyorum. Medium hesabımı takip edebilir, yazıyı beğendiyseniz clapsler ile beğeninizi sunabilirsiniz. Yorumlarınız ve benimle kurduğunuz etkileşim beni mutlu edecektir.

Sosyal medya hesaplarıma ulaşmak, benimle iletişime geçmek ve çalışmalarımdan haberdar olmak isterseniz web sitemi bırakıyorum. Twitter başta olmak üzere sosyal medyadan beni takip edebilir, iletişim kurabilirsiniz. Teşekkürler!

--

--

İrem Kömürcü

Google Developer Expert on Machine Learning | Data Scientist @Deloitte | iremkomurcu.com