The Multimedia Warehouse – Definition and structure

Tram Ho

The Multimedia Warehouse – Definition and structure

Define

The multimedia repository is defined based on the same concepts as the data warehouse but is a little different, because of the nature of the digital objects stored in it. Most multimedia repositories are used for data conversion, cleaning, and indexing for more efficient querying and reporting. In addition, they can transform images, summarize, combine and restructure data.

The data warehouse – The data warehouse

The idea of ​​a data warehouse has been around for a long time and specialized software vendors have been completely able to address its needs. Data warehouses grow from several different directions at the same time. Scholars then formulated more formal rules to redefine what a data warehouse really is.

For some people, the data warehouse to solve the performance problems of ad hoc queries (I don’t know how to explain ad hoc queries in Vietnamese, so google), can affect the performance of ad hoc queries. rate of the transaction database. For example, if a user is running a bad query, it can turn off the database of the application. But the user needs to run these queries, so that means we need to convert them to a copy of the database. From there a need arises for performing Extract , Transform and Load (ETL) for that copy. Various features have evolved from this to enable efficient data migration from the main database to the data warehouse. This ensures that the data warehouse has up-to-date information.

Other needs arise, including managers wanting to query many different databases. From the requirement of providing information, we have the concept of business analysis called online analytical processing (OLAP). The advent of OLAP also opened the idea that the data itself is not necessarily up to date and is an exact copy of where it originated. OLAP has created summary data focusing on different data (for example, geographic location, parts and time), which is very useful for performing complex aggregated queries. When time-based summary queries are made, there is no need for complete updates, especially when historical queries have been made. This concept is ignored by most database administrators and relational scholars who have been trained and believe that a database is truly consistent. Data warehouse has ignored this concept and changed some rules. For OLTP, it is true that the data must be consistent, but for the data warehouse, there are new rules and the data consistency is not high. For a multimedia repository, this is the same concept. A multimedia repository works by a different set of rules.

Data consistency – Data consistency

Data consistency is summarized as the validity, accuracy, usability, and integrity of data related between applications and across IT businesses. Data consistency is an important topic and central to relational databases. For users, consistency means that when they view data, the data must be accurate and of the right type. It must not be changed in the drive or damaged. This is a core concept.

Data consistency is heavily emphasized in the relational model and the primary, foreign, and constraint keys have been used to enforce consistency. The consistency in the relational model is real-time at the transaction level. Because the model is mathematically based, it cannot be faulty. It is proven and tested.

There is a tradeoff to enforcing this level of consistency which requires a lot of computational resources and high-speed networks. The real-time nature of consistency begins to collapse in distributed systems. If an application is distributed across multiple databases at different websites, it can be quite difficult to keep them in sync and consistent in real time. Oracle initially tried to solve this problem by providing synchronized (real-time) and asynchronous (delayed) copies. With replication through log records to redo (a common replication feature of most databases), asynchronous replication has become the new standard. The concept of latency exists between when data is changed and when that change is reflected elsewhere, denying the need for real-time consistency and giving the final idea of ​​consistency. .

With the power of today’s computer systems, the consistency of real-time applications still has limitations on scalability. Trying to enforce foreign keys and countless other constraints can consume a lot of resources, because of the size of the database, the number of users increases. With the increasing popularity of NoQuery, the concept of ultimate consistency also emerged. It does not conflict with the concept of data consistency at the transaction level. It says that the need for data to be consistently consistent in real time is not a requirement in all cases. For a financial system, this is most likely a mandatory requirement to stay consistent, but a social networking application doesn’t always require data to be immediately consistent. By introducing this consistency, some of the scalability and performance issues encountered previously have been fixed – allowing applications, such as Facebook and Google, to expand to hundreds of millions of users.

A data warehouse can use eventual consistency to meet some of its performance requirements. The specific view structure that can be used in a database is one such example. A data warehouse has different requirements and introduces a new concept, which traditional data consistency does not fully address.

Logical Data Consistency

Consistency is currently divided into three parts:

  • Point-in-time : This includes disc and software. It checks whether the database writes data to disk correctly.
  • Transactional : This type ensures that a set of data items (logical unit of work) is appropriate. In the database, this ensures whether it is consistent when an error occurs.
  • Application : This type ensures data on multiple transactions is consistent.

Each extension relies on previous capabilities to enhance it.

What is missing is the accuracy and consistency of the data. In transactional consistency, the model doesn’t care if a field contains an integer with a value of 10 or 20, providing all other columns that refer to it (primary key, foreign key).

Logical data consistency focuses on the value of the data itself and their accuracy. It conflicts with the ultimate consistency. For example, with a first name field, usually containing a first and last name, but when a value is entered, is it logically correct?

What if instead of John Smyth, John Smith was typed. Does it seem incorrect? The immediate answer is no; except that the consistent model cannot tell if this is true or false. Even if John Smyth’s name is entered, it may still be incorrect, because that person’s full name has not been entered. Instead, the name John Paul Smyth has been entered? At what point when entering the name is correct? Same thing for an address or contact details. What if the person changes their name or phone number? In this case, the entered value may look right, but it is now incorrect.

Consistency really implies accuracy in data, meaning that you can trust the data and trust the results when required. It has been proven that we cannot trust data, because there is a faintness to it. For example, with the date of birth entered, we can trust the year, month and day, but not hours, minutes and seconds.

If a person enters an email address, is that address valid? Is that an email address that belongs to that person and will it only belong to that person? Some applications can achieve a high level of comfort in determining that e-mail is right for that person, but to maintain this over time can be difficult. There is a level of accuracy and trust to get here.

Most of the time, these fuzzy issues with data items are processed, because they are too confusing and control or go beyond the boundaries of the application (fuzzy data is data that has a range of values ​​and logic. its referring to the mathematical manipulation of unknown data). We learn to accept logical inconsistencies in data. Now it is so much that instinctively is ignored in many cases. However, most data items have a degree of blur for them. Any data item identified as an integer indicates that the required precision is not the same as the real number. Date, timestamp, even spatial coordinates have precision, in which we accept a certain degree of accuracy, but except that it is not completely accurate.

The relational system may have a mathematical model behind it, ensuring data consistency in transactions, but it cannot control whether the data values ​​are completely accurate. Mathematically, it is not possible to enforce that the name entered is 100% valid or matches the person’s true identity. For a name, it is difficult to ensure that it has been spelled correctly.

When we take data in the real world, it is translated and processed to fit the computer system. Clear errors can be corrected (if the date entered is invalid), but we will never get full accuracy and full accuracy on all data entered. All that can be done is to gain a level of confidence with what is entered.

In a multimedia repository, the concept of trying to achieve logical data consistency does not exist, since it is clear that the majority of digital objects are fuzzy data. The goal is to achieve accuracy based on each data item and then, to understand the meaning of that accuracy.

In an inventory using OLAP, when statistical queries are run on large items, small data accuracy issues can be raised (on average). In other cases, data that does not conform to the standard deviation that can be excluded is abnormal and is ignored. People who work a lot with statistics will know the adage, “Lies, damned lies, and statistics”. By manipulating the database, especially when you know the accuracy of the data is not high, it is possible for some users to adjust the results of the queries to better match expectations or goals. their. Results can be blurred.

The multimedia repository takes issue of more logical data consistency when classifying digital objects. Is that John Smith in the picture? Is that a song bird singing? Is that the image of a chair? Is this person in the video? Is this a digital photo identical to this one? Is this document a photo? Multimedia databases are widely used and data are never accurate. It has only a modest degree of accuracy, which can vary based on circumstances or even how the query is executed.

People who have used traditional data warehouses, especially based on relational concepts, can have a lot of trouble dealing with the lack of multimedia and the fact that it’s inaccurate. This can lead to almost comical efforts made by people to classify it: This PDF file is a document if it contains more than x number of words, but it is a photograph if it contains a digital images and less than the number y from.

In most cases, it is unreasonable to try to combine the world of relations with the world of multimedia. They are very different. It has been proved that probability theory is a subset of fuzzy logic, meaning that the handling of data opacity is sound and is a natural extension of data management.

Computer science is a constantly changing environment. New technologies and advances create new thinking about using interface, performance and data management at least every two years. A newly released database introduces new features and replaces the old concepts. Database administrators must relearn new concepts and ideas at least every two to three years. In technology, you cannot be conservative and dream of being in your comfort zone. However, talking about the opacity of multimedia, the ways it affects the database and the ways to work with it, are constantly overlooked. Ironically, such conservatism is found in database vendors including Oracle.

Dilapidated warehouse

As the concept of data warehousing evolved, the idea of ​​throwing any data into a central repository emerged, especially, if it originated from old systems where there was little understanding of the structure. Its original. It is definitely easier and cheaper to just take the data, copy it to a central repository and tell the user “Here you go, do what you want”. Unfortunately. It is known early on that a data warehouse is only successful if it is controlled by the user. They have questions and questions that need to be answered. The data warehouse has one requirement and main business function. If that focus is lost, the data warehouse will become a ruined warehouse. Some data warehouses have suffered this fate.

But even in this case, all is still not lost, since the concept of data mining emerges, in which the patterns in the data and between different data items can be calculated automatically. Having a data warehouse, no core business requirements is not a death sentence. Still able to get useful information from it.

Data warehouses have many challenges to solve. The most important things are security, performance and preventing information overload.

Security

When multiple users access the data store, it is important to ensure that only authorized users can access the data they are authorized to access. For security stores, information can be marked with different levels of security access. This may require security to be done at the individual data row level.

Unfortunately, restricting access to data can make the data warehouse unusable. In the census database, users who make queries may receive summary information about areas (for example, suburbs) but are not allowed to access data coming from households because legal privacy requirements. Restricting access to these records means summary queries cannot be performed. Security needs to be configured to solve this problem.

One solution to the security problem is to use the data mart concept. Data mart is the access layer of the data warehouse environment used to retrieve data for users. Data mart is a subset of a data warehouse, usually oriented to a specific business group or group. Visit http://en.wikipedia.org/wiki/Data_mart for more information on data mart.

The use of data mart allows data in the repository to be strictly restricted to a clearly defined group of users.

Because access to summary information can become important and strategic for businesses, especially if business decisions are based on it, requirements can audit what is required and What users actually watch also becomes a major component.

Performance

Data warehouse queries can be very costly. Database systems have continuously evolved over time to address performance issues. Some performance solutions include parallelization, specifying views, smart caching, partitions and high-speed intelligent hardware (for example, Oracle Exadata). As the amount of data increases, the complexity of the queries the user can execute increases accordingly. This means that the data warehouse performance requirements are constantly changing.

A data mart can also be useful for performance, as it allows the partition data warehouse and each data mart can be adjusted according to the requirements of the user group that uses it.

Information overload

As more and more data is being transferred into the datastore, it can be difficult to find out what kind of queries can run and the best way to run them. To solve this pile of data, a data dictionary is created; provide users with road maps to enable them to intelligently query data. In addition, datasheets allow interested data items to be provided to users, as well as hide structures that they do not need to see or access.

3

Types of multimedia warehouses

The following information describes several types of multimedia stores. This list does not include all possible variants and will change as technology changes.

Traditional

Traditional multimedia warehouses are based on the same concepts of data warehousing. The goal is to be able to provide an archive of digital objects and data from different sources. Data and objects themselves undergo an ETL process. This process will include the need to establish a valid relationship between data and digital objects.

In a data warehouse, data can be summarized into a single class, with multiple parent classes. The standard example is creating a layered structure of sales data, based on city, state, state, and country areas. Regions are just one dimension of a lot of data in which data can be grouped and summarized. Another aspect is time. Digital photos can be combined together into a movie clip, snippets can be extracted from videos, main pages in different documents can be extracted, then combined. Oracle Text can use its main ability to automatically summarize a document or extract key topics about the document.

Image bank

In the image bank repository, the goal is to provide a central repository, accessible to all digital objects and applications. Metadata is stored in applications outside the repository, and these applications refer only to digital objects in the repository. The only metadata that is stored with digital objects is physical attribute information about the digital object. For an image, this will be EXIF ​​metadata.

An important goal of the image bank vault is to store digital objects once and have an archive that can be adapted to the special requirements of multimedia. In this environment, it is still reasonable to create a data warehouse, with values ​​in the image bank reference datastore. The advantage is that the traditional data warehouse doesn’t have to worry about management and the status of multimedia processing. They do not have to worry about storage requirements or trying to process and detect duplicate digital objects that may occur, when different applications move part of their data into the data warehouse.

Data mart

In a multimedia data mart, the goal is to take a subset of controlled digital objects, which can originate from a multimedia repository, can transform them, and then make them available. Available to use. A common method is to make these digital objects publicly available, where they can be manipulated, used and even enhanced. The Crowdsourcing method can be applied to these images with the results cleaned and put back into the parent multimedia repository.

The concept of a multimedia data mart is very similar to traditional data mart, where its existence was created to address security, performance or information overload issues.

Public

In a public repository, the goal is to retrieve digital objects from one or more internal systems and place them in a database, which can be accessed publicly. Using community services (mentioned later) allows the general public to attach metadata to images. When digital objects are moved to the repository, they can be converted into smaller sized objects. This conversion loses information in the image but provides the appropriate width, height and quality for a more user-friendly and aesthetically pleasing interface.

eSales

In the eSales warehouse, the main goal is to enable an e-commerce sales form of digital objects or what digital objects represent.

For this multimedia repository, digital objects are collected from one or more internal systems. The use of metadata is key to driving the way images are found. This means that the metadata surrounding the image must be converted, cleaned and suitable for consumers. Metadata inconsistent, needs to be removed.

Intelligence (security / defense)

A very powerful form of multimedia repository used to gather information intelligently. Government agencies, defense organizations, police agencies and security companies can use multimedia warehouses.

Politics within a state or nation can encourage the development and use of multimedia repositories. Police agencies in different states in one country have a reputation for not trusting the other. This may stem from cognitive, personality or conflicting security procedures. The result is an hesitation to share information in resolving a case. The government then created new agencies with new directives to try to resolve this impasse. They collect information, transform it, and create an intelligent database. In some cases, they may create a metadata that focuses on a particular area of ​​crime of interest such as drugs, sex offenses and organized crime.

Structures – Structures

A traditional data warehouse usually will not contain the structures within it. Data will be stored in tables and joined together and queryed as required. Summary tables and dimensions are also built to improve performance and provide a view of relational data.

With a multimedia repository, the focus is different. Each digital image is viewed as an object with its associated metadata describing that object. Objects are still queried in ad hoc style, and summary and dimensional tables are still built, but objects are included in structures to help manage and control them. For warehouse query users, these structures may be hidden or they can be used to add information or control to the queries performed.

The following describes some structures that can be deployed into a multimedia repository. Whether or not these structures are actually used depends on the type of object being stored and the purpose of the multimedia repository.

Collections

A collection is a group of digital objects. An object usually belongs to a collection but can be in many other collections. Attributes can be assigned to a collection, including security, metadata, and taxonomy.

A museum will have many collections. Mỗi bộ sưu tập có thể tương đương với một phần vật lý trong tòa nhà (các vật thể ở cánh phía đông hoặc tòa bên tay), một khoảng thời gian (nghệ thuật thế kỷ 16) hoặc các vật thể tương tự về loại (gốm, tranh, tấm thảm).

Một bộ phận chính phủ có thể đánh đồng mỗi bộ sưu tập với một bộ.

Một phòng thí nghiệm ảnh có thể đánh đồng mỗi bộ sưu tập với một buổi chụp hình (đám cưới Jones, buổi chụp hình của sinh viên đại học năm 2012, cuộc đua xe mô tô).

Trong hầu hết các trường hợp, một bộ sưu tập có chủ sở hữu là người quản lý bộ đối tượng. Việc nhóm các đối tượng kỹ thuật số lại với nhau cho phép các hành động được thực hiện trên toàn bộ bộ sưu tập. Mỗi đối tượng kỹ thuật số có thể có bộ bảo mật hoặc siêu dữ liệu của nó được cập nhật.

Một bộ sưu tập có thể được gán một tên, cho phép dễ dàng gọi nó.

Groups

Một nhóm là một tập hợp các bộ sưu tập. Các nhóm có thể được lồng và chứa các nhóm khác.

Nếu một tổ chức chính phủ thiết lập mỗi phần để có bộ sưu tập riêng, thì nó có thể nhóm các phần này thành một chi nhánh và mỗi chi nhánh thành một bộ phận.

Một phòng thí nghiệm ảnh có thể nhóm nhiều bộ sưu tập (trong đó mỗi bộ là một bộ ảnh) vào một nhiếp ảnh gia, trong đó nhiếp ảnh gia đó sở hữu tất cả các đối tượng kỹ thuật số.

Một bảo tàng có thể tạo một nhóm cho các đối tượng kỹ thuật số công cộng, trong đó tất cả các nhóm khác, được đánh dấu là riêng tư, đóng góp hình ảnh công khai của họ cho nhóm.

Giống như các bộ sưu tập, có các nhóm giúp phân loại các đối tượng kỹ thuật số dễ dàng hơn và hoạt động trên chúng rất lớn. Thuộc tính bảo mật có thể được áp dụng cho toàn bộ nhóm. Một nhóm có thể được thực hiện ngoại tuyến.

Categories

Trong một bộ sưu tập, các đối tượng kỹ thuật số có thể được lưu trữ trong một cấu trúc phân cấp được gọi là một danh mục. Mục đích của danh mục là cho phép các đối tượng kỹ thuật số này được phân loại và cung cấp một phương pháp thay thế để tìm và xem các đối tượng kỹ thuật số.

Một đối tượng kỹ thuật số có thể thuộc nhiều mục. Một danh mục có thể được lồng nhau. Mặc dù một cấu trúc danh mục thường được phân cấp, nhưng không có yêu cầu nào để tuân thủ điều này.

Không có giới hạn đối với loại danh mục có thể được tạo, hầu như là bằng cách sử dụng siêu dữ liệu hoặc thuộc tính vật lý của đối tượng kỹ thuật số.

Lightbox

Một hộp đèn có thể được mô tả như một khu vực chơi hoặc khu vực giữ hình ảnh. Hộp đèn có thể là riêng tư hoặc chia sẻ với người khác. Có cấu trúc gần giống với một danh mục (và thậm chí có thể được gọi là một loại danh mục ảo), một hộp đèn hơi khác nhau; trong đó, nó được tạo bởi người dùng và hình ảnh được đưa vào bằng tay. Khái niệm này cũng tương tự như một giỏ mua hàng. Một giỏ mua hàng chủ yếu là riêng tư và phiên cụ thể. Một hộp đèn có thể chỉ dành cho một phiên hoặc được giữ vĩnh viễn. Một số đặc điểm độc đáo khác của hộp đèn bao gồm:

  • Một nội dung hộp đèn có thể được đặt bằng tay. Tùy thuộc vào giao diện, nội dung hộp đèn có thể được sắp xếp theo ba chiều trở lên (một chiều bổ sung là thời gian).
  • Một hộp đèn có thể được chia sẻ với người khác, ngay cả khi những người dùng khác không có quyền truy cập vào hình ảnh. Quyền được thừa kế thông qua hộp đèn. Tất nhiên, đây là một tính năng có thể không phù hợp với một số kho đa phương tiện an toàn.
  • Các hành động có thể được thực hiện trên một hộp đèn. Nội dung của nó có thể được in hoặc gửi qua thư điện tử cho một người. Một yêu cầu có thể được đưa vào để chuyển đổi, chuyển đổi hoặc sửa chữa nội dung của hộp đèn. Ngoài ra, chỉnh sửa hàng loạt siêu dữ liệu có thể được thực hiện đối với tất cả các hình ảnh trong hộp đèn.
  • Hộp đèn có thể được hợp nhất hoặc thiết lập các hoạt động được thực hiện trên chúng. Tìm giao điểm của hai hộp đèn, nghĩa là tìm những hình ảnh chung cho cả hai. Ngoài ra, lấy một hộp đèn và trừ một hộp đèn khác từ nó, nghĩa là tìm các hình ảnh trong hộp đèn đầu tiên không tồn tại trong hộp thứ hai.
  • Nội dung hộp đèn có thể được kiểm tra hoặc đăng nhập. Quá trình thanh toán đặt khóa trên đối tượng kỹ thuật số, cho biết nó đã bị khóa riêng để người dùng sửa đổi. Kiểm tra bản phát hành khóa. Khóa không nên bị nhầm lẫn với khóa cơ sở dữ liệu, là một phần của giao dịch. Khóa kiểm tra độc lập với trạng thái của cơ sở dữ liệu và miễn dịch với việc khởi động lại cơ sở dữ liệu. Kiểm tra các khóa có thể có ngày hết hạn và ghi đè các khóa trên chúng để giúp quản lý chúng dễ dàng hơn.

Relationships

Một mối quan hệ là một liên kết nhiều-nhiều giữa hai đối tượng kỹ thuật số. Các loại mối quan hệ có thể được sử dụng để mô tả các đặc điểm. Thông tin có thể được lưu trữ trong mối quan hệ và có thể thích ứng theo thời gian, dẫn đến trí thông minh mạng.

Thesaurus

Một từ điển đồng nghĩa có thể được mô tả như một tập hợp các thuật ngữ được liên kết với nhau dựa trên sự giống nhau. Các thuật ngữ thuộc về một từ vựng được kiểm soát. Điều này rất quan trọng, vì các thuật ngữ đồng nghĩa mới không thể được thêm vào mà không có sự làm rõ. Một từ điển có thể được phân cấp nhưng không phải như vậy. Một từ điển phù hợp với một tiêu chuẩn được xác định. Có rất nhiều tiêu chuẩn với một tiêu chuẩn phổ biến trong việc sử dụng là từ điển đồng nghĩa.

Taxonomy

Một nguyên tắc phân loại tương tự như một từ điển đồng nghĩa, với sự bổ sung rằng nó chứa các thuật ngữ ưa thích và được sử dụng chủ yếu bởi khoa học. Nó là một phân loại trong khi một từ điển đồng nghĩa là một kho các thuật ngữ liên quan. Các thuật ngữ được chứa trong một hệ thống phân cấp và các thuật ngữ phù hợp với một từ vựng được xác định rõ. Một hệ thống phân cấp phân loại cũng được kiểm soát tốt. Trong phân loại khoa học đời sống, các cấp độ khác nhau trong hệ thống phân cấp được cố định và tương đương với các giá trị như chi, loài và phân loài.

Các ví dụ phân loại bao gồm các nguyên tắc phân loại cho hóa thạch, thực vật, tâm lý học và thậm chí cả kinh doanh. Cấu trúc phân loại có thể khác nhau về ý nghĩa, cách sử dụng và sự nghiêm ngặt của việc tuân thủ các nguyên tắc. Hầu hết các nguyên tắc phân loại chính phù hợp với một tiêu chuẩn quốc tế để đảm bảo rằng cấu trúc vẫn nhất quán và chính xác. Đảm bảo các cấu trúc phân loại là chính xác được coi là rất quan trọng.

Do tính chất cấu trúc tốt của phân loại, các truy vấn ad hoc được thực hiện đối với các đối tượng kỹ thuật số có thể được trả về trong cấu trúc phân loại.



Tài liệu tham khảo: Managing Multimedia and Unstructured Data in the Oracle Database – Marcelle Kratochvil

Share the news now

Source : Viblo