您现在的位置:首页 > >

单页单面汉字纵横切碎片拼接复原算法_论文

发布时间:

匿 圈  …  单 页 单 面 汉 字 纵 横 切 碎 片 拼 接 复 原 算 法  杨 雯雯 , 陶佳 琪 , 郑路 通 , 孙 国伟 , 买阿 丽  ( 运城学院 应用数学系 , 山西 运城 0 4 4 0 0 0 )   摘 要: 对于纵切汉字碎片依汉字 的方正特征进行复原 , 对于纵横 切汉字 的碎 片根据空 行和汉字 位置对碎  片进行分组 , 并建立边界像 素点匹配度进行组 内碎 片拼 接 , 最后利用边 界汉 字宽度进行 组间拼接 。并 对两个 实  际例 子进行 了拼接试验 , 试 验结果表 明该算法是有效 的。   关键 词 : 0—1化 ; 边界宽度匹配 ; 边界像素点 匹配 ; 边 界截 断位置 匹配  中图分类号 : T P 3 9 1 . 7 文献标志码 : A   文章 编号 : 1 0 0 8 — 8 0 0 8 ( 2 0 1 3 ) 0 5 - 0 0 1 6 - 0 5   1 .引 言  观察左右边缘处, 发现有很多文字被切开 , 因  破碎 文件 的拼接 在 司法 物证 复 原 、 历 史 文 献修  此 碎片 的拼 接 转 化 成 对 边 缘 处 被 截 断 的汉 字 的 拼  复 以及 军 事 情 报 获 取 等 领 域 都 有 着 重 要 的 应 用 。   接 。考 虑到汉 字是方 正 的 , 因此 只 需要 拼 接 成 一个  本文以 2 0 1 3全 国大 学 生 数 学建 模 B题 ( 以下 简称  汉 字大小 的文 字 区域 , 就 可 *似 认 为是 拼 接 成 一 个  2 0 1 3 B题 ) 附件 1和附件 3为例 ¨ J , 研究 一 页单页单  完 整 的汉字 。   面汉字 文件被 纵切 , 或 者 即被 纵 切 又被 横 切 产 生 的  用m a t l a b读 取 每 张 图片 , 得到一个数字矩 阵,   规则 矩形 碎纸 片 的拼 接 技术 。传 统 上 , 拼 接 复 原 工  矩 阵 中每个元 素代 表 图像 该点 的灰度 值 。 图 2为附  作需 由人工完成 , 准确率较高 , 但效率很低。特别  件 1中 0 0 0图 中 “ 魂” 的像 素 图 。经 统计 每 一 个 汉  是 当碎 片数量 巨大 , 人 工 拼接 很 难 在 短 时 间 内完 成  字 大小 为 4 1× 4 1 , 第一行 汉 字 的位 置应 为像 素 矩 阵  任务 。随着计 算机 技术 的发 展 , 人 们试 图开 发 碎 纸  中第 3 8— 7 8行 的 , 第 一行 汉字 距 顶端 的距 离 为 3 7 .   片的 自动拼接 技术 , 以提高拼 接复原 效率 。   如 图 2所 示 。两行 之 间的间 隔为 2 7 , 一 个左 右 结 构  对 于非规 则 碎 片 I 6   J , 或者 手 撕 碎 片 [  研 究 学  的汉字 间 的宽度不 超 过 3 , 如“ 旧” 字 中间 的 的宽 度  者 多是 从 碎 片 的边 缘 特 征 出 发 , 提 取 边 缘 曲率 特  小 于 3 。我们假 设两个 汉字 之 间的空格 大于 等于 3 ,   征, 并 采用 边 界 特 征 匹 配 、 或 动 态 规 划 算 法 来 进 行  如 图 3所 示 的“ 柳” 和“ 卖” 。   拼 接 。罗智 中  分 析 了基 于 几 何 特 征 的碎 纸 片 自   当汉字 被裁 开后 , 记左 边部 分长 度为 0 , 右 边 部  动 拼接 方法 的缺 点 , 研 究 了碎 纸 片 内文 字 行 特 征 ,   分 长度 为 b 。 如 图 4和 图 5 。 因此 如 果 左 右两 部 分 长  表 格特 征特 点 , 以 及 碎 纸 片 内文 字 行 特 征 、 表 格 线  度 之 和等 于 4 l , 则 可 以认 为拼 接 后 为 一个 汉 字 , 左  特 征 的获取方 法 , 提 出 了基 于碎 片 文 字行 特 征 或 表  右相互 拼配 成功 。 因为在 统计 每 个 汉 字 宽度 的过 程  格 特征 的碎 片半 自动拼 接算法 。   2 .纵切 汉字碎 片的拼接 复原 算法  2 . 1问 题 分 析   中, 难 免 会 有误 差 , 所 以判 断 拼 在 一 起 的汉 字 不 能  严格要 求宽 度和 为 4 1 。 若 0+b< =4 1×0 . 8 , 则 认  为能 拼在一 起 , 多次 实 验后 确 定 当 阀值 为 0 . 8时最  在2 0 1 3 B题 附件 1中 纸张 被 纵 切 为 1 9条 汉 字  为合适 。   碎片 , 如 图 1所示 。需要 将这 1 9条碎 片进 行排 序复  原。   当一 张纸被 裁减 成许 多 纸 条 后 , 每 张 纸条 的左  右边 界都会 产生许 多 被 分开 的汉 字 , 因此 正确 拼 接  收 稿 日期 : 2 0 1 3 09 - - 2 0   基金项 目: 山西省教学改革研究 项 目( J 2 0 1 2 0 9 8 ) ; 运城学 院科研基 金项 目( F Z一2 0 1 2 0 0 5 , Y Q一2 0 1 2 0 2 0, J Y一2 O l l O 3 O,   J G一 2 0 1 2 0 4 )   作者简 介 : 杨雯雯 ( 1 9 9 3 一 ) , 女, 山西 吕梁人 , 运城学 院应用数学系 1 1 0 2班学生。   究[ J ] . 微 电子学与计算机. 2 0 0 6 ( 1 2 ) .   [ 7 ]贾海燕. 碎纸 自动拼接 关键技 术研究 [ D] . 国 防科 技大  学. 2 0 0 5 .   计算机工程与应用. 2 0 1 2 ( 5 )   【 责任编辑 马太来】   [ 8 ]罗智 中. 基 于文字特 征 的文档碎 纸片 半 自动拼接 [


热文推荐
猜你喜欢
友情链接: 医学资料大全 农林牧渔 幼儿教育心得 小学教育 中学 高中 职业教育 成人教育 大学资料 求职职场 职场文档 总结汇报