“Ma’lumotlar haqida fan” (data science) atamasi taxminan 10 yil oldin paydo bo’lgan. Hozirda bu zamonaviy dunyodagi tez-tez quloqqa chalinib turadigan mashhur iboralardan biri.
IT-texnologiyalar inson faoliyatining barcha jabhalariga, akademik tadqiqotlardan tortib, iqtisodiyotning deyarli barcha sohalarida davlat tashkilotlari faoliyatigacha faol joriy etilmoqda. Shu sababli, mehnat bozorida mutaxassislar va ma’lumotlar olimlari kabi ko’plab yangi vakansiyalar paydo bo’ldi.
Xo’sh, bu atama nimani anglatadi? Va buning o’ziga xos xususiyati nimada?
Ma’lumotlar bo’yicha olimlar uchun majburiyatlarning umumiy ta’riflari mavjud. Biroq, turli bozorlarning ehtiyojlari ta’riflardagi ba’zi farqlarga va ehtimol bu ikki savolga turli xil javoblarga olib keldi. Men bu haqida sizga umumiy tasavvurimni taqdim etishga harakat qilaman. Umid qilamanki, ushbu ma’lumot sizga ushbu sohani yaxshiroq tushunishga yordam beradi.
Ma’lumotlar haqidagi fan nima?
Nomidan ko’rinib turibdiki, ma’lumotlar fani — ma’lumotlar bilan shug’ullanadigan fandir. So’nggi o’n yilliklardagi texnologiyaning rivojlanishi ko’rsatganidek, bu ta’rif tobora ko’proq tushunchalarni o’z ichiga oladi. Mavjud texnologik infratuzilmaga ko’ra, “ma’lumotlar fani” atamasi ma’lumotlarni to’plashdan tortib ma’lumotlarni saqlash va tahlil qilishning barcha turlarigacha, bunday faoliyat natijalaridan foydalanadigan turli kanallargacha bo’lgan hamma narsani o’z ichiga oladi. Ushbu turdagi ma’lumotlarni qayta ishlash zanjiri odatda ma’lumotlar konveyerlari deb ataladi.
Ma’lumotlar konveyerlari
Ma’lumotlar uzatish liniyasi odatda ma’lumotlarni manipulyatsiya qiladigan, ma’lumotlarni yig’ishdan tortib, undan olingan foydali ma’lumotlarni taqdim etishgacha va ular orasidagi barcha bosqichlarni tartibga soluvchi komponentlar to’plamidir. Ishlab chiqarish zanjiri kabi harakat qilib, ushbu komponentlarning har biri taqdim etilgan kirish ma’lumotlarini ma’lum bir tarzda qayta ishlash uchun javobgardir va natijada olingan ma’lumotlar qayta ishlashning keyingi bosqichi uchun kirish sifatida ishlatiladi. “Ma’lumotlar uzatish liniyasi” atamasi odatda jarayonni avtomatlashtirishni maksimal darajada oshirish uchun komponentlarning uzoq muddatli amalga oshirilishini nazarda tutsa-da, xuddi shunday yondashuv adhoc tahlilda qo’llaniladi. Ushbu jarayon zanjirini to’rtta asosiy bosqichga bo’lish mumkin.
Ma’lumotlarni yig’ish
Birinchi (amaliy) bosqich keyingi tahlil uchun ma’lumotlarni tayyorlaydigan jarayon hisoblanadi. Bu odatda to’planishi kerak bo’lgan ma’lumotlarni aniqlash uchun muammo yoki savolga oydinlik kiritish uchun aqliy hujum bosqichidan oldin o’tkaziladi. Ba’zan zanjirdagi birinchi qadam birinchi navbatda veb-qirqish yoki mobil tarmoq orqali masofaviy sensorlardan ma’lumotlarni olish shaklida ma’lumotlarni yig’ishni (ko’pincha avtomatlashtirilgan) o’z ichiga oladi. Muayyan yig’ish usuliga qarab, bu shuningdek, ba’zi API manbalaridan ma’lumotlarni to’playdigan brauzerlar yoki skriptlarni yozishni o’z ichiga olishi mumkin.
Ma’lumotlarni saqlash
Shundan so’ng, ma’lumotlar bulutli saqlash yoki mahalliy ma’lumotlar bazasi bo’lishi mumkin bo’lgan ma’lumotlarni saqlash platformasiga yuboriladi. Ushbu qayta yo’naltirish ma’lumotlar formatini (ko’pincha ma’lumotlarni qayta ishlash deb ataladi) o’zgartiradi, shuning uchun chiqish odatda samarali ma’lumotlarni qidirish uchun optimallashtirilgan do’kon parametrlariga mos keladi. Bunday saqlash platformalarining tuzilishi ko’pincha ba’zi ilovalar uchun maxsus ishlab chiqilgan va ishlab chiqishning o’zi ma’lumotlarni qayta ishlash muhandislarining mas’uliyati hisoblanadi. Ushbu mutaxassislar keyingi tahlilni qilish uchun optimal ma’lumotlarni ajratib oladigan funktsiyalarni (ko’pincha SQL) yozishlari kerak.
Amalda, ko’pgina chala ma’lumotlar to’plamlari tozalanishi kerak bo’lgan juda ko’p shovqinlarni o’z ichiga oladi. Ma’lumotlar muhandislari odatda ma’lumotlarni tahlil qilish uchun tayyorlash uchun javobgardir. Ushbu tayyorgarlik jarayonida tozalash jarayonining ko’p qismi, shuningdek, yuqorida tavsiflangan ma’lumotlarni yig’ish va saqlash imkon qadar avtomatlashtiriladi va imkon qadar samarali amalga oshiriladi.
Ma’lumotlarni tahlil qilish
Ushbu bosqichning asosiy maqsadi — ma’lumotlarga xos bo’lgan tendentsiyalar va qonuniyatlarni aniqlashdir. Ma’lumotlar turiga, shuningdek, loyihaning yakuniy maqsadlariga qarab, turli xil yondashuvlardan biri qo’llaniladi. Odatda, bu bosqich mavjud ma’lumotlardan foydalangan holda model yaratishni o’z ichiga oladi. Buning uchun ko’plab usullar qo’llaniladi — regressiya va vaqt seriyalari tahlilidan tortib, klasterlash va neyron tarmoqlar kabi turli turdagi mashinalarni o’rganish algoritmlarigacha. Bunday modellarning foydalanish doirasi haqiqatan ham keng: tijorat va moliyaviy sektorlarda vaqtinchalik ma’lumotlarni prognoz qilishdan o’simtalarni tasniflash va avtonom haydash texnologiyalari uchun tasvirni aniqlashgachadir.
Taqdimot
Yakuniy natijalar qo’llaniladigan bosqich. Ular hisobot / taqdimot shaklida yoki tizimga integratsiyalangan tayyor ma’lumotlar konveyeri sifatida taqdim etiladi.
Odatda, adhoc (muammoni yechimini aniqlash tahlili) tahlil qilish uchun topilmalar manfaatdor tomonlarga hisobot yoki slayd taqdimotida taqdim etiladi. Manfaatdor tomonlar ma’lumotlar uzatish liniyasining texnik tafsilotlari haqida kamroq ma’lumotga ega bo’lishlari mumkin. Bu erda ma’lumot mutaxassisning vazifasi sotuvchining vazifasiga juda o’xshaydi. Ularning ikkalasining ham asosiy maqsadi mijozni bajarilgan ish ko’p kuch sarflaganiga va manfaatdor tomon sifatida unga juda foydali ekanligiga ishontirishdir.
Yaxshi ma’lumot vizualizatsiyasi tahlil natijalarini taqdim etishning kalitidir (bu kontekstda mashhur “Rasm ming so’zga arziydi” iqtibosining ahamiyatini ortiqcha baholash qiyin). Reddit-da ikkita qiziqarli mavzu bor – Ma’lumotlar ajoyib va Ma’lumotlar dahshatli. Ularda siz uchun taqdimotlar yaratishda foydali bo’lishi mumkin bo’lgan ko’plab qiziqarli namunalarni topishingiz mumkin.
Yakuniy natija yoki hisobot/taqdimot ko‘rinishida yoki tizimga integratsiyalangan tayyor ma’lumotlar konveyeri ko‘rinishida taqdim etiladi, u yuqori darajada avtomatlashtirilgan rejimda ishlashda davom etadi.
Xulosa
Turli komponentlar bilan yaratilishi mumkin bo’lgan qiymatni optimallashtirish uchun ma’lumotlar olimlari ko’pincha o’z mijozlari bilan gaplashishdan boshlashlari kerak. Ushbu yondashuv odatda “biznes muammolariga yo’naltirilganlik” deb ataladi. Ma’lumotlarni protsessor quyidagi jihatlarni aniqlash uchun manfaatdor tomonlardan ma’lumot to’playdi.
Loyihaning yakuniy maqsadi: mijoz nimani xohlaydi, loyihaga ma’lum miqdorda pul va vaqt sarflash.
To’planishi kerak bo’lgan ma’lumotlar: Ular odatda loyihaning yakuniy maqsadi bilan belgilanadi.
Aniqlik talablari: Ba’zi loyihalarda aniqlik tez-tez javob berish uchun qurbon bo’lishi kerak, masalan, real vaqt tizimlarida.
Qo’shimcha uskunalarga bo’lgan ehtiyoj: agar loyihaning yakuniy mahsulotidan foydalanish uchun yetarli infratuzilma mavjud bo’lsa.
Ushbu darajalarning har birida qoniqarli natijalarni ta’minlash, ularning ma’lumotlar uzatish liniyasidagi natijaviy ishlashi kabi muhimdir. Yaxshi ishlash va ushbu omillarning samaradorligi yakuniy muvaffaqiyat uchun juda muhimdir. Shu o’rinda NBAning afsonaviy o’yinchilaridan biri Karim Abdul Jabbarning mashhur iqtibosini eslamoqchiman: “Bir kishi jamoada hal qiluvchi bo’g’inga aylanishi mumkin, ammo jamoa yaratish uchun bir kishi yetarli emas”.
Nima uchun ma’lumotlar fani birdan mashhur bo’lib qoldi?
Bizda ma’lumotlarning o’zi ham, ularni tahlil qilish usullari ham uzoq vaqtdan beri mavjud. Chiziqli regressiya, masalan, 1800-yillarda Legendre (1805) va Gauss (1809) tomonidan tilga olingan. Ammo nima uchun ma’lumotlar fanining o’zi so’nggi o’n yillikda paydo bo’ldi? Menimcha, bir qancha omillarning o’zaro ta’siri bunga olib keldi.
Internetni rivojlantirish
1990-yillarning oxirida Internet xizmatlari mashhur bo’lganidan buyon butun dunyo bo’ylab har kuni katta hajmdagi ma’lumotlar ishlab chiqarilmoqda. Bu tendentsiya ayniqsa 2000-yillarning o’rtalaridan boshlab sezilarli bo’ldi (ijtimoiy tarmoqlarning “bumi” va smartfonlar yaratilishi). Ko’pgina tashkilotlar yangi ochilgan axborot resurslaridan foydalanib, turli toifadagi odamlarning xatti-harakatlaridagi tendentsiyalar va naqshlarni ajratib olishni boshladilar. Olingan natijalar elektron tijoratdan tortib infratuzilma tahliligacha bo’lgan ko’plab sohalarda biznes faoliyatini yaxshilash uchun juda qimmatli vositaga aylandi.
Hisoblash kuchi
1990-yillarning boshida ishlab chiqilgan qo’llab-quvvatlovchi vektor mashinasi kabi ko’plab mashinalarni o’rganish texnikasi hisoblash quvvatidagi yutuqlar tufayli mashhur bo’ldi. Tijorat darajasidagi mashinalar nihoyat ko’proq odamlar ulardan foydalanishlari uchun etarli quvvat oladi. Ovoz, tasvir va video kabi murakkab ma’lumotlar formatlarini avvallari oddiygina bo’lmagan ko’p usullar bilan tahlil qilish mumkin.
Bulutli hisoblash
Internet va hisoblash quvvati sohasidagi innovatsiyalardan faol foydalanish muqarrar ravishda bulutli hisoblashning rivojlanishiga olib keldi. Taxminan 2010 yilda bulutli hisoblashlar paydo bo’lishidan oldin, taqsimlangan hisoblash kabi texnologiyalar (masalan, LHC Computing GRID) allaqachon mavjud edi. Ular ilmiy tadqiqotlar kabi ixtisoslashgan tarmoqlarda keng qo’llaniladi. Texnologiyaning bunday jadal rivojlanishining afzalliklari yaqqol ko‘rinib turibdi. Biz o’zimiz uchun ishni bajaradigan uskunaga egalik qilish imkoniyatiga egamiz. Masofadan boshqarish pulti tufayli biz vazifani boshlaymiz, chiroqlarni o’chiramiz, kompyuterni o’chiramiz va barga boramiz, chunki bu vaqtda ish bizning ishtirokimizsiz davom etadi.
Natija
Yuqoridagi omillarning o’zaro bog’liqligi va o’zaro ta’siri aniq. Ma’lumotlar faniga oid ko’plab tushunchalar ma’lumotlar fani, regressiya va ma’lumotlar uzatish liniyasi atamalari moda bo’lishidan ancha oldin mavjud edi. Yangi texnologiyalar paydo bo’lganda, bu asosiy tushunchalarning ba’zilari hali ham mavjud bo’ladi. Kelajakda yanada ilg‘or vositalar yordamida ulardan oqilona foydalanish imkoniyatiga ega bo‘lamiz. Ma’lumotlarni qayta ishlash kurslari mashinani o’rganish funktsiyalariga ega bo’lgan ba’zi tijorat dasturiy ta’minotlarining interfeys xususiyatlariga emas, balki ushbu jihatlarga e’tibor qaratishlari ajablanarli emas.
Eng ko’p o’qilgan maqolalar