数位文字知识探勘--以中文索引典之建构及应用为例内容摘要:
document clustering as an alternative method of anizing retrieval results, but clustering has yet to be deployed on the major search engines. The paper articulates the unique requirements of Web document clustering and reports on the first evaluation of clustering methods in this domain. A key requirement is that the methods create their clusters based on the short snippets returned by Web search engines. Surprisingly, we find that clusters based on snippets are almost as good as clusters created using the full text of Web documents. To satisfy the stringent requirements of the Web domain, we introduce an incremental, linear time (in the document collection size) algorithm called Suffix Tree Clustering (STC), which creates clusters based on phrases shared between documents. We show that STC is faster than standard clustering methods in this domain, and argue that Web document clustering via STC is both feasible and potentially beneficial.? Terms extracted before filtering 1. clusters based on : 3 2. document clustering : 3 3. of Web : 3 4. on the : 3 5. search engines : 3 6. STC is : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements of : 2 11. returned by : 2 Terms extracted after filtering 1. clusters based : 3 2. document clustering : 3 3. Web : 3 4. 5. search engines : 3 6. STC : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements : 2 11. returned : 2 關鍵詞自動擷取範例 [Tseng 2020]: 中文範例 Comparison of Three Metadata Related Standards 在本文中,我們介紹了三個跟 metadata 相關的標準,它們分別是 FGDC 的 Digital Geospatial Metadata、 Dublin Core、和 URC。 雖然它們各有自己的設計目標和特質,但都是假設其操作環境為類似網際網路的環境。 FGDC 的 Digital Geospatial Metadata 是設計來專門處理地理性資料,由於它有聯邦行政命令的支持,可說是已成為美國在地理方面的資料著錄國家標準。 Dublin Core 則比較像是 USMARC 的網路節縮版,使非專業人士也能在短時間內熟悉和使用此格式來著錄收藏資料,但在現階段祇針對類似傳統印刷品的電子文件。 由 IETE 的 URI 工作小組所負責的 URC,其原始的設計目的雖是用來連結 URL 和 URN,但為因應電子圖書館時代的要求,其內含逐漸擴大,雖然尚在發展中,但由於有 IETE 的支持,未來成為網際網路上通用標準的可能性極大。 在此文中,我們也從幾個不同角度,分析和比較這三個 metadata 格式的異同和優缺點。 Terms before filtering 1. 設 計 : 3 2. 資 料 : 3 3. 網 路 : 3 4. 標 準 : 3 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2 7. IETE 的 : 2 8. 三 個 : 2 9. 文 中 : 2 10. 比 較 : 2 11. 它 們 : 2 12. 由 於 : 2 13. 地 理 : 2 14. 成 為 : 2 15. 我 們 : 2 16. 的 支 持 : 2 17. 的 設 計 目 : 2 18. 格 式 : 2 19. 著 錄 : 2 20. 電 子 : 2 21. 網 際 網 路 : 2 22. 環 境 : 2 23. 雖 然 : 2 24. 類 似 : 2 Terms after filtering 1. 設 計 : 3 (design) 2. 資 料 : 3 (data) 3. 網 路 : 3 (work) 4. 標 準 : 3 (standard) 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2 7. IETE : 2 8. 三 個 : 2 (three) 9. 文 中 : 2 (in the article) 10. 比 較 : 2 (parison) 11. 它 們 : 2 (they) 12. 由 於 : 2 (owing to) 13. 地 理 : 2 (geography) 14. 成 為 : 2 (bee) 15. 我 們 : 2 (we) 16. 支 持 : 2 (support) 17. 設 計 目 : 2 (incorrect term) 18. 格 式 : 2 (format) 19. 著 錄 : 2 (record) 20. 電 子 : 2 (electronics) 21. 網 際 網 路 : 2 (Inter) 22. 環 境 : 2 (environment) 23. 雖 然 : 2 (although) 24. 類 似 : 2 (similar) Keyword Extraction for Chinese “ 松軟型 ” 和 “ 卷腿型 ” ﹑ 您選擇哪一种 ?! 今秋東京流行靴子新款式。 春夏秋冬 ﹐ 不論是那個季節 ﹐ 只要一換季就會有新的款式出現。 今秋靴子新款式將引人注目。 秋冬流行款式當然要數各式各樣的靴子 !今秋東京街頭商店的展窗紛紛擺出出前所未有的獨俱特色的新款式 ﹐ 吸引者赶超時尚的男男女女。 今十几年來所流行的靴子 ﹐ 為了充分顯示腳線美多設計得樣式簡洁色調平穩。 然而自 2020年春夏開始各种大胆型的設計款式紛紛亮相 ﹐ 穿在腳上的靴子開始受到關注。 其中最受青睞款式有 “ 松軟型 ” 和許多文藝界偶像穿用的 “ 卷腿型 ” 靴子。 无論哪一种都用花編和絨毛做裝飾 ﹐ 充分再現了女孩子愛美之心 ﹐ 也同樣會把行人的目光吸引到穿著漂亮皮靴的腳上。 今秋 ﹐ 東京街頭將會出現一個“ 靴子 ” 時裝展。 1. 靴子新款式。数位文字知识探勘--以中文索引典之建构及应用为例
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。