Sağlıkta Yapay Zeka

Yeni Kan Hücreleri Veri Seti3 min read

28 Nisan 2020 2 min read

Yeni Kan Hücreleri Veri Seti3 min read

Reading Time: 2 minutes

İyi bir yapay zeka modeli geliştirmenin koşullarından biri iyi bir veriye sahip olmaktan geçiyor. Bundan dolayı verileri toplamak, temizlemek ve etiketlemek başlı başına önemli bir iş. Ben de bu süreci en başından en sonuna kadar deneyimlemek için uzun zamandır düşündüğüm kan hücreleri veri setini hazırladım. Bu yazıda bu aşamalardan kısaca bahsedeceğim.

Bu Veri Seti Ne İşe Yarıyor?

Periferik kan yayması, kısaca, hastanın kanının boyanarak ışık mikroskobu altında incelenmesi için hazırlanan bir preparattır. Bu preparat hücrelerin sayısına, şekline ve rengi gibi farklı özelliklerine göre klinikte bize bazı hastalıkların ayırıcı tanısında yardımcı olur.

Bu veri seti kan yaymalarının mikroskop altındaki görüntülerinin yüksek büyütmede ve çözünürlükte toplanıp beyaz ve kırmızı kan hücreleri olarak etiketlenmesiyle oluşturuldu. Bu veri seti kullanılarak kan yaymasındaki beyaz ve kırmızı hücreleri otomatik tespit edebilen bir yapay zeka modeli geliştirilebilir.

Veri Toplama

Mikroskop görüntülerini, geçen sene kendi fakültemin, Ankara Yıldırım Beyazıt Üniversitesi Tıp Fakültesi, multidisipliner laboratuvarındaki mikroskoplarını ve yine aynı laboratuvarın periferik yayma preparatlarını kullanarak topladım. Toplamda 200+ görüntü kaydettim.

İlk çektiğim görüntüler çok yüksek çözünürlükte ve TIFF formatında olduğu için fazla yer kaplıyordu. Görüntüleri kırparak 256×256 piksel boyutuna getirdim ve PNG formatına çevirdim. Bu haldeki görüntüleri çeşitli elemelere tabi tutarak sayıyı 100’e kadar indirdim.

Veri Etiketleme

Verileri etiketlemek için online veya offline birçok araç mevcut. Ben Microsoft tarafından geliştirilen VoTT’yi tercih ettim. Genel olarak memnun da kaldım. Verileri import/export etmek çok kolay. Bütün verinizi bir kere etiketleyip sonrasında ihtiyacınız olan formata aktarabiliyorsunuz. Etiketlediğiniz veriyi isterseniz Pascal VOC isterseniz CSV isterseniz de TFRecords olarak tek tuşla dışa aktarmanız mümkün. Böylece sürekli dönüştürücü kullanma derdiniz ortadan kalkmış oluyor.

Etiketleme sonunda 103 beyaz kan hücresi, 2237 kırmızı kan hücresi etiketlenmiş oldu. Beyaz ve kırmızı kan hücreleri arasındaki oranın çok büyük olduğunun farkındayım ama bu fizyolojik olarak böyle. Oran sorunu ön işleme ve model eğitimi sırasında çözülebilecek bir problem.

Yayınlama

Etiketlediğim veriyi VoTT ile CSV formatında dışa aktardım. Veri setiyle ilgili kısa bilgilendirme dökümanını hazırladım. Sonrasında gerekli düzenlemeleri yaparak GitHub ve Kaggle’da paylaştım.

Özet

Sonuç olarak elimizde periferik yaymadan beyaz ve kırmızı kan hücrelerini tespit edebileceğimiz bir veri seti oluşturmuş olduk. Belki mükemmel kalitede bir veri seti olmadı ama benim bu süreçte veri seti hazırlamayla ilgili uçtan uca ilk deneyimimdi. Laboratuvarda mikroskoptan görüntü almadan etiketleyip yayınlamaya kadar her işi kendim yaptığım için ayrı bir öneme sahip. İlerleyen günlerde daha iyi veri setleri hazırlamak için iyi bir basamak oldu benim için.

Siz de katkılarınızı GitHub üzerinden yapabilirsiniz.

2 Comments
  1. *

    yayma yapilip sayilirken rbc den ziyade lokosit sayimi ve morfolojik degerlendirmesi cbc de lokosit icin yapilan yanlis pozitif ve yanlis negatif sonuclar icin yapiliordu. Burdaki calismanizda bu oranlar nedir.ve neye gore ayirdiniz ikisini renk boyut vs. normoblasti da lokosit diye sayar mi mesela.? Resimlere baktım çok benzerler Belki kompleks bi calisma degil ama belki patoloji preparat calismasi icin vesile olur. Frozen gibi hizli sonuc gerektiren tekniklerde kullanilan bu gibi yontemler va rmi

    • mm

      Abdüssamet ASLAN

      Evet klinikte genelde direkt sayıdan ziyade morfoloji için kullanılıyor. Buradaki çalışma klinik kullanım için değil zaten. Aldığım görüntüler de sadece fizyolojik hücrelerden oluşuyor. Patolojik hücreleri tespit etmek için çok çok daha fazla hastadan çok daha fazla kan yayması verisi toplayıp etiketlemek gerekli. Çünkü en son UpToDate'den baktığımda sadece RBC için 25 farklı patolojik tip tanımlanmıştı. Hepsini dahil edebilmemiz için benim tek kişilik çabamdan ziyade toplu bir çalışma gerekiyor. Verileri de sadece wbc/rbc olarak etiketledim. WBC'leri de alt tiplerine göre etiketlemedim. Oran olarak 1/22 wbc/rbc gibi bir oran var. Oranı ben belirlemedim, çektiğim görüntülerdeki oran bu şekilde olduğu için böyle. Eğitilen modele göre illaki hata payı olacaktır. Ama wbc/rbc ayrımında hata, kendi içlerindeki hataya göre daha az olur diye düşünüyorum. WBC'leri kendi içinde sınıflandırırken wbc/rbc sınıflandırmasından daha fazla hata olması muhtemel yani. Hem frozen için hem de diğer patoloji işlemleri için yapılan çalışmalar var. Misal: https://pubmed.ncbi.nlm.nih.gov/29994669/

Leave a comment

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir