JOURNAL ARTICLE

Automatically Converting HTML Documents with Similar Pattern into XML Documents

O Geum-YongInjun Hwang

Year: 2002 Journal:   The KIPS Transactions PartD Vol: 9D (3)Pages: 355-364

Abstract

최근 들어, WWW(World Wide Web)의 급속한 보급으로 많은 양의 정보가 생성되고 있다. 이로 인하여 웹은 이제 정보 교환의 도구로서 뿐 아니라 정보의 저장소로 인식되게 되었다. 현재 웹상의 많은 문서들은 HTML(Hypertext Markup Language)을 사용하여 제작되었다. HTML은 간단하고 배우기가 쉬운 반면, 데이터에 대한 기술을 명확하게 하지 못하는 단점으로 인해 정보 검색에 있어서 효율성을 제공하지 못한다. 이를 보완하기 위한 방법 중에 하나가 구조적인 언어로 부상하고 있는 XML(eXtensible Markup Language) 문서로 변환하는 것이다. XML은 웹 상에서 데이터 교환을 위해 제안된 표준 메타 언어이다. 효과적인 데이터의 교환을 위해, XML은 DTD(Document Type Definition)를 통하여 문서의 구조를 기술할 수 있고 사용자가 원하는 대로 정의할 수 있다. 이러한 구조적 유동성은 웹에서 운용되는 모든 데이터를 통합, 저장, 처리할 수 있는 기반을 제공한다. 본 논문에서는 특히 유사한 패턴을 갖는 HTML 문서의 구조를 분석하고 그에 관련된 경로 정보를 인식하는 방식을 이용하여 XML 문서로의 변환을 자동적으로 수행할 수 있는 XML 변환기를 구현하였다. Recently, WWW(World Wide Web) has become a source of a large amount of information, and is now recognized not only as an information-sharing tool, but also as an information repository. Currently, the majority of documents on the web were created using HTML(Hypertext Markup Language). Although HTML is simple and easy to learn, its inherent lack of describing document structure makes it difficult to retrieve information effectively. One possible solution would be to convert such HTML documents into XML (extensible Markup Language) documents. This is a standard markup language for exchanging data on the web. It can describe a document structure freely by defining its own DTD (Document Type Definition). This makes it possible to integrate, store, and retrieve data on the web efficiently In this paper, we will propose a converter that automatically converts HTML documents with similar pattern into XML documents by analyzing the document structure and recognizing its path information.

Keywords:
Computer science Document type definition Document Structure Description SGML HTML World Wide Web XML validation Information retrieval Efficient XML Interchange XML XML Base RuleML Markup language Streaming XML XML Schema Editor XHTML Web page

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
4
Refs
0.14
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Web Data Mining and Analysis
Physical Sciences →  Computer Science →  Information Systems
Multimedia Communication and Technology
Social Sciences →  Social Sciences →  Sociology and Political Science
Advanced Database Systems and Queries
Physical Sciences →  Computer Science →  Computer Networks and Communications

Related Documents

BOOK-CHAPTER

Converting Formatted Documents to HTML

Bebo White

Electronic publishing series Year: 1996 Pages: 213-214
JOURNAL ARTICLE

Converting formatted documents to HTML

J.Stephenson von Tetzchner

Journal:   Computer Networks and ISDN Systems Year: 1994 Vol: 27 (2)Pages: 309-310
BOOK-CHAPTER

A Heuristic Approach for Converting HTML Documents to XML Documents

Seung-Jin LimYiu‐Kai Ng

Lecture notes in computer science Year: 2000 Pages: 1182-1196
© 2026 ScienceGate Book Chapters — All rights reserved.