본문 바로가기

컴퓨터 일반150

데이터베이스 스키마( Database Schema ) 데이터베이스(DB: database)에서 데이터 구조와 그 표현법, 자료 간의 관계를 형식 언어로 정의한 것. 데이터베이스 스키마(database schema)는 데이터베이스(Database) 전체 또는 일부의 논리적인 구조를 표현하는 것으로 데이터베이스 내에서 데이터가 어떤 구조로 저장되는지를 나타낸다. 데이터베이스 스키마는 데이터 사전(data dictionary)에 저장하며 현실 세계의 단면을 추상화하는 모델링 과정을 통하여 만들어진다. 데이터베이스 스키마는 대부분의 상용 데이터베이스 관리 시스템(DBMS)에서 사용하는 안시/스파크(ANSI/SPARC) 모델의 3층 스키마 구조(three-schema architecture)에 따라 외부 스키마, 개념 스키마, 내부 스키마로 구분한다. - 외부 스키.. 2022. 7. 4.
구조화된 질의 언어(SQL : Structured Query Language) 관계형 데이터베이스 관리 시스템(RDBMS) 또는 관계형 데이터 스트림 관리 시스템(RDSMS)의 조작과 관리를 위한 표준 질의 언어. 일반적으로 기업 등 조직은 조직 내에서 생산하는 데이터를 효율적으로 저장하고 관리하며 사용하기 위하여 관계형 데이터베이스 관리 시스템(RDBMS)을 사용한다. 이 시스템에 접근하여 데이터를 저장하고 호출하거나, 수정하고 삭제하는 데에 구조화된 질의 언어(SQL: Structured Query Language)를 사용한다. 구조화된 질의 언어(SQL)는 1970년대에 미국 IBM사가 최초로 개발하였으며, 국제표준으로 채택된 이후 ISO/IEC JTC 1 SC32(Data management and interchange) WG3에서 지속적인 개정과 보완을 담당하고 있다. 처.. 2022. 6. 27.
아나콘다 설치하기 1. 웹브라우저의 주소란 또는 검색란에 아나콘다라 입력하고 Enter한다. 2. 검색된 리스트 중 Anaconda Distribution 을 클릭한다. 3. 아나콘다 사이트가 나타나면, Download 버튼을 클릭한다. ▶ 자료가 본인 컴퓨터에 저장된다. 4. 다운된 자료의 목록버튼을 클릭한다. 5. 폴더열기를 클릭한다. 6. 열린 탐색기에 다운된 Anaconda3-...-Windows-x86_64.exe 파일을 더블클릭한다. 7. 아나콘다 설치 창이 나타나면, Next 버튼을 클릭한다. 8. I Agree 버튼을 클릭한다. 9. 누구나 다 사용할 수 있도록 All Users 옵션 버튼을 클릭한다. 10. Next 버튼을 클릭한다. 11. 사용자 계정 컨트록 창이 나타나면, 예 버튼을 클릭한다. 12. .. 2022. 6. 14.
데이터베이스(DataBase, DB) ① 주어진 목적이나 주어진 자료 처리 시스템에 사용하기에 적합하도록 자료를 구조화하여 자료 검색 및 갱신을 효율화한 자료의 집합. ② 여러 사람이 공유하여 사용할 목적으로 통합하여 관리되는 데이터의 집합 또는 여러 응용 시스템들의 통합된 정보들을 저장하여 운영할 수 있는 공용 데이터들의 묶음. 일반적으로 데이터베이스(DB)는 서로 관련 있는 데이터들의 집합이다. 중복된 데이터를 제거할 뿐 아니라 데이터를 구조화하여 효율적인 처리가 가능하도록 관리할 수 있어 금융, 전자상거래, 웹 애플리케이션, 게임 등 다양한 분야에 사용된다. 파일 시스템(file system)으로 데이터를 관리하면 중복 데이터 발생과 이들 간의 데이터 불일치 등 데이터 무결성(data integrity, 데이터가 불법으로 변형되거나 손.. 2022. 6. 13.
데이터 시각화(Data Visualization) 정보와 데이터를 도표, 그래프, 지도와 같은 시각적인 요소들을 사용하여 쉽고 효과적으로 이해할 수 있게 표현하는 절차 또는 기술. 단순 통계치나 복잡한 표로 만들어진 데이터는 이해하기가 쉽지 않을뿐더러 이를 기초로 한 신속한 의사결정을 내리기 어렵다. 데이터 시각화(data visualization)는 데이터의 의미나 분석 결과를 사용자가 쉽게 이해할 수 있도록 다음의 방법들을 주로 사용한다. - 시간 시각화 : 시간에 따른 데이터의 변화를 시각적으로 표현하는 방법(예 : 누적 막대 그래프) - 분포 시각화 : 데이터를 전체 관점에서 부분들의 분포로 시각적으로 표현하는 방법(예 : 원 그래프) - 관계 시각화 : 데이터 세트 간의 유사성, 상관관계를 표현하는 방법(예 : 산점도, 버블 차트) - 비교 시.. 2022. 6. 6.
맵리듀스( MapReduce) 분산 컴퓨팅(distributed computing)에서 대용량 데이터를 병렬 처리(parallel processing)하기 위해 개발된 소프트웨어 프레임워크(framework) 또는 프로그래밍 모델. 맵리듀스(MapReduce)는 구글이 수집한 문서와 로그 등 방대한 데이터들을 분석하기 위해 2004년에 발표한 소프트웨어 프레임워크다. 맵리듀스는 방대한 입력 데이터를 분할하여 여러 머신들이 분산 처리하는 맵(Map) 함수 단계와 이를 다시 하나의 결과로 합치는 리듀스(Reduce) 함수 단계로 나뉜다. 다음은 맵리듀스를 이용한 단어 수 세기(word count) 처리 과정 예시다. 1. 입력(input) : 파일을 입력한다. 2. 분할(splitting) : 입력한 파일 값을 라인 단위로 분할한다. 3.. 2022. 5. 30.
하둡(Hadoop) 대용량 데이터 분산 처리 플랫폼(High-availability distributed object-oriented platform)의 약자로 다수의 범용 컴퓨터를 연결하여 하나의 시스템처럼 작동하도록 묶어 대용량의 다양한 데이터들을 분산 처리하는 공개 소스 프레임워크(소프트웨어 패키지). 하둡(hadoop)은 2005년 더그 커팅(Doug Cutting)과 마이크 케퍼렐라(Mike Cafarella)가 오픈 소스 검색 엔진인 아파치 너치(Apache Nutch)를 분산 처리하기 위하여 개발하였다. 하둡이라는 이름은 개발자인 더그(Doug)의 아들이 갖고 있던 노란 코끼리 장난감의 이름을 따서 지었다. 이후 개발한 하둡 에코시스템(ecosystem) 프로그램들은 하이브(hive, 데이터 모델링 솔루션), .. 2022. 5. 23.
알 언어(R language) 빅데이터 분석(big data analytics)과 데이터 시각화(data visualization)에 특화된 플랫폼에 독립적인 프로그래밍 언어이자 오픈 소스(open source) 소프트웨어. 알(R) 언어는 1992년 처음 뉴질랜드 오클랜드에서 Robert Gentleman, Ross Ihaka 교수가 개발을 시작하였으며, 2000년에 R 1.0.0 버전이 배포되었다. 현재는 R 개발 핵심팀(R Development Core Team)이 개발을 담당하여 지속적으로 성능을 개선하고, 새로운 기능들을 추가하고 있다. 알(R) 언어는 플랫폼에 독립적인 언어로 모든 운영 체제에서 쉽게 사용할 수 있다. 그누(GNU) 소프트웨어 중 하나로 공용 사용권(GPL: General Public License)을 제공.. 2022. 5. 16.
온톨로지(Ontology) 존재하는 사물과 사물 간의 관계 및 여러 개념을 컴퓨터가 처리할 수 있는 형태로 표현하는 것. 어떤 일정 범위에서 사용되는 단어들의 개념, 특성, 연관 관계 등을 표현하여 단어에 대한 일반적 지식이 명시적으로 드러나고, 단어 간 관계 정의를 통해 문장의 의미를 파악할 수 있다. 스탠포드 대학의 그루버(Thomas A. Gruber) 교수는 온톨로지를 ‘일반적으로 개념화된 것을 형식적으로 명백하게 기술하는 명세(an explicit formal specification of a shared conceptualization)’라고 정의하였다(1992). 온톨로지는 인공 지능(AI), 시맨틱 웹(semantic web), 자연어 처리(NLP: Natural Language Processing), 문헌정보학 등.. 2022. 5. 9.
분산 데이터 처리(DDP, Distributed Data Processing) 네트워크로 연결한 다수의 컴퓨터 시스템에 저장된 데이터를 입출력, 조작, 제어 등 데이터 처리 기능 일부 또는 전부를 분산하여 병렬로 처리하는 방식. 분산 데이터 처리(DDP: Distributed Data Processing)는 다수의 컴퓨터를 네트워크로 연결하여 사용자가 여러 컴퓨터에 있는 데이터를 한 대의 컴퓨터 시스템에 저장된 것처럼 데이터를 처리하는 기술이다. 분산 처리(distributed processing)는 분산 컴퓨팅 환경(DCE: Distributed Computing Environment)에서 프로세싱 자원, 메모리 자원 등을 공유하여 운영체제나 대규모 응용 프로그램(application program)을 처리하는 것과 같이 포괄적인 컴퓨팅 처리 방식을 말한다. 한편 분산 데이터 처.. 2022. 5. 2.
분산 파일 시스템(DFS, Distributed File System) 네트워크를 통해 물리적으로 다른 위치에 있는 여러 컴퓨터에 자료를 분산 저장하여 마치 로컬 시스템(local system)에서 사용하는 것처럼 동작하게 하는 시스템. 분산 파일 시스템(DFS: Distributed File System)에서는 다수의 사용자가 원격으로 데이터를 쉽게 공유할 수 있도록 한다. 이렇게 하여 데이터의 가용성(data availability)을 향상하고, 데이터를 물리적으로 다른 위치에 중복하여 저장함으로써 디스크에 장애가 발생하더라도 단일 서버 환경에서보다 상대적으로 쉽게 복구할 수 있다. 그러나 네트워크를 사용하기 때문에 시스템 노드(node)들 간 연결을 보호해야 하며, 노드(node)들 간에 데이터를 전송할 때 데이터가 손실되거나 누락될 가능성이 있다. 또한 여러 클라이언.. 2022. 4. 25.
자연어 처리(NLP, Natural Language Processing) 컴퓨터를 이용해 사람의 자연어를 분석하고 처리하는 기술. 요소 기술로 자연어 분석, 이해, 생성 등이 있으며, 정보 검색, 기계 번역, 질의응답 등 다양한 분야에 응용된다. 자연어는 일반 사회에서 자연히 발생하여 사람이 의사소통에 사용하는 언어로, 컴퓨터에서 사용하는 프로그래밍 언어와 같이 사람이 의도적으로 만든 인공어(constructed language)에 대비되는 개념이다. 자연어 처리에는 자연어 분석, 자연어 이해, 자연어 생성 등의 기술이 사용된다. 자연어 분석은 그 정도에 따라 형태소 분석(morphological analysis), 통사 분석(syntactic analysis), 의미 분석(semantic analysis) 및 화용 분석(pragmatic analysis)의 4 가지로 나눌 .. 2022. 4. 18.
반응형