Beyond the hype: Big data concepts, methods, and analytics
Amir Gandomi∗
, Murtaza Haider
Ted Rogers School of Management, Ryerson University, Toronto, Ontario M5B 2K3, Canada
a b s t r a c t
Size is the first, and at times, the only dimension that leaps out at the mention of big data. This paper
attempts to offer a broader definition of big data that captures its other unique and defining characteristics. The rapid evolution and adoption of big data by industry has leapfrogged the discourse to popular
outlets, forcing the academic press to catch up. Academic journals in numerous disciplines, which will
benefit from a relevant discussion of big data, have yet to cover the topic. This paper presents a consolidated description of big data by integrating definitions from practitioners and academics. The paper’s
primary focus is on the analytic methods used for big data. A particular distinguishing feature of this
paper is its focus on analytics related to unstructured data, which constitute 95% of big data. This paper
highlights the need to develop appropriate and efficient analytical methods to leverage massive volumes
of heterogeneous data in unstructured text, audio, and video formats. This paper also reinforces the need
to devise new tools for predictive analytics for structured big data. The statistical methods in practice
were devised to infer from sample data. The heterogeneity, noise, and the massive size of structured big
data calls for developing computationally efficient algorithms that may avoid big data pitfalls, such as
spurious correlation
فراتر از اغراق: مفاهیم داده های بزرگ، روش ها و تجزیه و تحلیل
چکیده
ویژگی اندازه، اولین و تنها بعدی است که در هر زمان، در اشاره به داده های بزرگ مورد توجه قرار می گیرد. این مقاله سعی در ارائه تعریف گسترده ای از داده های بزرگ است که دیگر ویژگی های منحصر بفرد و تعریف شده خود را کسب می کند. تکامل سریع و پذیرش داده های بزرگ توسط صنعت، بحث را بسمت خروجی های مورد پسندی می کشاند، که مطبوعات علمی را مجبور به نائل شدن به ان می نماید. مجلات علمی در بسیاری رشته های علمی، که از بحث مربوط به داده های بزرگ سود می برند، هنوز به بررسی و تامین کامل این موضوع نپرداخته اند. این مقاله به توضیحی تلفیقی از داده های بزرگ با یکپارچه سازی تعاریف ارائه شده از مشاغل پزشکی و دانشگاهیان می پردازد. اولین هدف این مقاله توجه به روش های تحلیلی مورد استفاده برای داده های بزرگ است. ویژگی متمایز و خاص این مقاله توجه به تجزیه و تحلیل های مربوط به داده های بی ساخت است که 95% از داده های بزرگ را تشکیل می دهند. در این مقاله، بر نیاز به توسعه روش های تحلیلی مناسب و موثر برای نفوذ و استفاده در حجم های بزرگی از داده های ناهمگن در ساختارهای متنی، صوتی، و ویدئویی تاکید می شود. همچنین به اهمیت نیاز به تعبیه ابزارهای جدید برای تجزیه و تحلیل های پیش گویانه برای داده های بزرگ دارای ساختار، پرداخته می شد. در عمل، روش های اماری برای استنتاج از داده های نمونه طراحی شده اند. ناهمگنی، صدا، و اندازه حجیم داده های بزرگ دارای ساختار در توسعه الگوریتم های محاسباتی کارا که ممکن است از بروز مشکلات داده های بزرگ (مثل همبستگی کاذب) اجتناب نماید، نقش دارند.
کلیدواژه ها: تجزیه و تحلیل داده های بزرگ، تعریف داده های بزرگ، تجزیه و تحلیل داده های بدون ساختار، تجزیه و تحلیل پیشگویانه
نتیجه گیری
هدف اصلی این مقاله توصیف، مرور، و تامل بر داده ها یبزرگ است. در ابتدا تعریف می شود که معنی داده های بزرگ چیست تا بتوان بحث های مختلف پیرامون داده های بزرگ را در یک تعریف کلی ارائه داد. در مقاله حاضر تعاریف مختلفی از داده های بزرگ ارائه گردید که تاکید بر این حقیقت دارد که اندازه تنها کی از ابعاد داده های بزرگ است. ابعاد دیگر، از قبیل سرعت، گوناگونی یا تنوع دارای اهمیت برابری هستند. توجه و هدف اولیه مقاله حاضر بر علم تجزیه و تحلیل است تا بینش های معتبر و ارزشمندی از داده های بزرگ را بدست اورد. ما بر این نکته تاکید داریم که تحلیل های پیش گویانه ،که با داده های دارای ساختار سروکار دارند، دیگر شکل های تجزیه و تحلیل گری های بکار رفته برای داده های بی ساختار را که 95% از داده های بزرگ را تشکیل می دهند، تحت شعاع قرار داده و کم اهمیت می سازد. همچنین تکنیک های تجزیه و تحلیل برای داده های متنی، صوتی، ویدئویی، و رسانه های اجتماعی بعلاوه تحلیل های پیش گویانه، بازبینی گردید. این مقاله، موردی را برای تکنیک های اماری جدید در مورد داده های بزرگ ایجاد می کند تا ویژگی هایی را که داده های بزرگ را از مجموعه داده های کوچک تر متمایز می سازد، تعیین و ادرس دهی کند. در عمل، بیشتر روش های اماری برای مجموعه داده های کوچکتر تشکیل دهنده نمونه ها تعبیه شده اند.
پیشرفت های تکنولوژی در ذخیره و محاسبات تسخیر مقرون به صرفه ارزش اطلاعاتی داده های بزرگ را به روش بهنگام، قادر ساخته است. متعاقبا، انچه که در مورد ازدیاد پذیرش تجزیه تحلیل ها در دنیای واقعی مشاهده می شود، بلحاظ اقتصادی برای برنامه های کاربردی در مقیاس بزرگ قبل از عصر داده های بزرگ، امکان پذیر نبود. برای مثال، انالیز های احساس و عقیده (نظر سنجی) از اوایل سال 2000 شناخته شده است (Pang & Lee, 2008). اگرچه، تکنولوژی های داده های بزرگ صاحبان تجاری را قادر به پذیرش انالیزهای احساسی برای جمع کردن دیدگاه های سودمند از میلیون ها نظر و عقیده به اشتراک گذاشته شده در رسانه های اجتماعی، می نماید. پردازش متون بی ساخت که با تاثیر عمده داده های رسانه های اجتماعی تقویت می شود، سبب ایجاد ارزش تجاری با اقتباس از انالیز مرسوم احساس (قبل از داده های بزرگ) می شود که ممکن است بطرز ایده الی مناسب نفوذ و استفاده در داده های بزرگ نباشد.
اگرچه نواوری های عمده در تکنیک های تحلیلی برای داده های بزرگ هنوز جای خود را پیدا نکرده اند، ظهور چنین تحلیل گری های جدیدی در اینده ای نزدیک پیش بینی می کند. برای مثال، علم تجزیه و تحلیل زمان واقعی، احتمالا به فیلد پرکاری از تحقیق (بدلیل رشد در اطلاع رسانی-مکانی رسانه های اجتماعی و نرم افزارهای موبایل) تبدیل شود. از انجاییکه داده های بزرگ شلوغ، وابستگی زیاد و غیرقابل اعتماد هستند، محتمل بر توسعه تکنیک های اماری اسان و درخور داده کاوی داده های بزرگ می باشند در حالیکه همچنان حساس به خصوصیات منحصر بفرد می باشند. با توجه به نمونه های بیشتر، دیدگاه های ارزشمند دیگری می توانست از حجم های بزرگی از داده های با قابلیت اعتماد کمتر بدست اید.
فایل ترجمه : فایل Word شامل 30 صفحه