2013年06月28日のつぶやき
@Nazri_KK: Flickrへの写真アップロードは現在ようやく7,314枚。まだ先は長い。日本のネット環境ならすぐなんでしょうね。現在のStreamyxのブロードバンド契約は4Mbps(月額RM140)だが、8Mbps(同RM160)にアップグレードを依頼した。#photomanage
@Nazri_KK: ただ数十ページを超える文書はEvernoteで扱いにくく、やはり透明テキストPDFとなる。そして電子化した紙資料をEvernote内と、それ以外に分けるのは何となくイヤ。プロジェクト毎に1フォルダにまとめたい。でもどうせSpotlightで一括検索するから意味のないこだわりかも。
@Nazri_KK: そうなると、だ。過去の紙資料の電子化をコツコツすすめているが、原則フォーマットは透明テキスト付きPDFにしている。これは個別ファイル自体にテキストを埋め込みたいという意図によるが、OCR作業に結構手間をとられる。OCRせずにPDF/JPEGでEvernoteに入れるのも手か。
@Nazri_KK: CiniiのOCRできない論文(PDF)について。Evernoteに入れたら、プロテクトや先の問題も関係なくOCRしてくれた。認識精度は悪そうだし、EvernoteによりOCRされたテキストはコピーできないが、インデクス用途としては十分。
@Nazri_KK: CiNiiで公開されている論文には、OCRされていないものがあるので、Acrobatで自前OCRを試みた。プロテクトがかかっているが、それは簡単に外せる。外してからOCRするも"This page contains renderable text."というエラー。