Nói đến Big Data người ta thường nói có 5 chữ V thể hiện đặc trưng của Big Data. 5V đó là:
– Volume: là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte.
– Velocity: là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc độ tăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Một ví dụ đơn giản là trên các mạng xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.
– Variety: là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, mà tính đa dạng của nó cũng đang ngày càng tăng lên làm cho tính phức tạp của dữ liệu ngày càng phức tạp hơn.
– Veracity: là tính xác thực của dữ liệu. Với xu hướng Social ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data.
– Value: Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data. Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của BigData cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có thể nói việc đầu tiên là phải xác định được tính chất “Value” thì mới nên bắt tay vào BigData.
Tiếng Anh:
Anil Jain, MD, is a Vice President and Chief Medical Officer at IBM Watson Health
I recently spoke with Mark Masselli and Margaret Flinter for an episode of their “Conversations on Health Care” radio show, explaining how IBM Watson’s Explorys platform leveraged the power of advanced processing and analytics to turn data from disparate sources into actionable information. My hosts wanted to know what this data actually looks like. And how, they wondered, are the characteristics of big data relevant to healthcare organizations in particular?
As it turns out, data scientists almost always describe “big data” as having at least three distinct dimensions: volume, velocity, and variety. Some then go on to add more Vs to the list, to also include—in my case—variability and value. Here’s how I define the “five Vs of big data”, and what I told Mark and Margaret about their impact on patient care.
Volume: Big data first and foremost has to be “big,” and size in this case is measured as volume. From clinical data associated with lab tests and physician visits, to the administrative data surrounding payments and payers, this well of information is already expanding. When that data is coupled with greater use of precision medicine, there will be a big data explosion in health care, especially as genomic and environmental data become more ubiquitous.
Velocity: Velocity in the context of big data refers to two related concepts familiar to anyone in healthcare: the rapidly increasing speed at which new data is being created by technological advances, and the corresponding need for that data to be digested and analyzed in near real-time. For example, as more and more medical devices are designed to monitor patients and collect data, there is great demand to be able to analyze that data and then to transmit it back to clinicians and others. This “internet of things” of healthcare will only lead to increasing velocity of big data in healthcare.
Variety: With increasing volume and velocity comes increasing variety. This third “V” describes just what you’d think: the huge diversity of data types that healthcare organizations see every day. Again, think about electronic health records and those medical devices: Each one might collect a different kind of data, which in turn might be interpreted differently by different physicians—or made available to a specialist but not a primary care provider. The challenge for healthcare systems when it comes to data variety? Standardizing and distributing all of that information so that everyone involved is on the same page. With increasing adoption of population health and big data analytics, we are seeing greater variety of data by combining traditional clinical and administrative data with unstructured notes, socioeconomic data, and even social media data.
Variability: The way care is provided to any given patient depends on all kinds of factors—and the way the care is delivered and more importantly the way the data is captured may vary from time to time or place to place. For example, what a clinician reads in the medical literature, where they trained, or the professional opinion of a colleague down the hall, or how a patient expresses herself during her initial exam all may play a role in what happens next. Such variability means data can only be meaningfully interpreted when care setting and delivery process is taken into context. For example a diagnosis of “CP” may mean chest pain when entered by a cardiologist or primary care physician but may mean “cerebral palsy” when entered by a neurologist or pediatrician. Because true interoperability is still somewhat elusive in health care data, variability remains a constant challenge.
Value: Last but not least, big data must have value. That is, if you’re going to invest in the infrastructure required to collect and interpret data on a system-wide scale, it’s important to ensure that the insights that are generated are based on accurate data and lead to measurable improvements at the end of the day.
As I pointed out to Mark and Margaret, every clinician and healthcare system is different, and so there’s no “cookie cutter” way to provide high-quality patient care. The same goes for how we handle big data: Organizations might use the same tools and technologies for gathering and analyzing the data they have available, but how they then put that data to work is ultimately up to them.