Add `arrived` attribute (file creation timestamp) to books table.
[quanlib.git] / book.rb
diff --git a/book.rb b/book.rb
index f1481f0c7ef5cb6e96b72615a2b50f30ff044b0d..2b93f4b574c9c45738a3a95a2c0b4f1697083d1c 100644 (file)
--- a/book.rb
+++ b/book.rb
@@ -1,31 +1,38 @@
 
 require 'nokogiri'
+require 'rubygems'
 require 'zip'
 
-require 'author'
-require 'cover'
-require 'store'
+require_relative 'author'
+require_relative 'classification'
+require_relative 'cover'
+require_relative 'store'
 
 class Book
   @@DC_NS_URL = 'http://purl.org/dc/elements/1.1/'
+  @@SERIES_AND_VOLUME_REGEX = /^([A-Z]+)([0-9]+(\.[0-9]+)?)$/
+
+  attr_accessor :arrived
+  attr_accessor :author
+  attr_accessor :classification_id
+  attr_accessor :cover
+  attr_accessor :description
+  attr_accessor :language
+  attr_accessor :path
+  attr_accessor :series_id
+  attr_accessor :title
+  attr_accessor :volume
 
   def initialize(store)
-    @author = nil
-    @cover = nil
-    @description = nil
-    @path = nil
-    @series_id = nil
     @store = store
-    @title = nil
-    @volume = nil
   end
 
-  def loadFromFile(fileName)
+  def load_from_file!(fileName)
     @path = fileName
-    parseFileName!(fileName)
+    parse_file_name!(fileName)
   end
 
-  def self.canHandle?(fileName)
+  def self.can_handle?(fileName)
     if nil == fileName
       return false
     end
@@ -37,31 +44,23 @@ class Book
       return true
     end
 
-    return false
-  end
-
-  def author
-    return @author
-  end
-
-  def author=(value)
-    @author = value
-  end
+    if lowerName.end_with?(".pdf")
+      return true
+    end
 
-  def cover
-    return @cover
+    return false
   end
 
-  def cover=(value)
-    @cover = value
-  end
+  def self.grouping_for_title(title)
+    result = title
 
-  def description
-    @description
-  end
+    '\'",!#'.split('').each do |c|
+      result = result.gsub(c, '-')
+    end
+    result = result.gsub(/: */, '--')
+    result = result.gsub(' ', '_')
 
-  def description=(value)
-    @description = value
+    result
   end
 
   def heading
@@ -75,11 +74,11 @@ class Book
     if nil != @author
       result.push('<i>by ' + @author.reading_order + '</i>')
     end
-    
+
     seriesInfo = []
     series = @store.load_series(@series_id)
-    if nil != series
-      seriesInfo.push(series.to_s)
+    if nil != series and nil != series.descr
+      seriesInfo.push(series.descr.to_s)
     end
     if nil != @volume
       seriesInfo.push(@volume.to_s)
@@ -88,6 +87,19 @@ class Book
       result.push(seriesInfo.join(' '))
     end
 
+    classification = nil
+    if nil != @classification_id
+      classification = @store.load_classification(@classification_id)
+    end
+    if nil != classification
+      if nil != classification.ddc
+        result.push('Dewey: ' + classification.ddc.to_s)
+      end
+      if nil != classification.lcc
+        result.push('LCC: ' + classification.lcc.to_s)
+      end
+    end
+
     return result.join('<br/>')
   end
 
@@ -114,40 +126,16 @@ class Book
     return '(Book:' + data.join(',') + ')'
   end
 
-  def path
-    @path
-  end
-
-  def path=(value)
-    @path = value
-  end
-
-  def series_id
-    @series_id
-  end
-  
-  def series_id=(value)
-    @series_id = value
-  end
-
   def to_s
     return inspect()
   end
 
-  def title
-    @title
-  end
-
-  def title=(value)
-    @title = value
-  end
-
-  def volume
-    @volume
-  end
+  def title_grouping
+    if nil == @path
+      return nil
+    end
 
-  def volume=(value)
-    @volume = value
+    return File.basename(@path, '.*')
   end
 
   protected
@@ -185,7 +173,7 @@ class Book
     vol = nil
 
     first = arr[0]
-    matchData = (arr[0]).match(/^([A-Z]+)([0-9]+)$/)
+    matchData = (arr[0]).match(@@SERIES_AND_VOLUME_REGEX)
     if nil != matchData
       capt = matchData.captures
       series = capt[0]
@@ -200,12 +188,24 @@ class Book
 
     title = arr.join(' ')
 
+    bare_title_grouping = title_grouping
+      .split('_')
+      .reject { |part| part.match(@@SERIES_AND_VOLUME_REGEX) }
+      .join('_')
+
+    unless bare_title_grouping == Book.grouping_for_title(title)
+      puts "WARNING:  title_grouping mismatch:  #{bare_title_grouping.inspect} vs. #{Book.grouping_for_title(title).inspect}"
+    end
+
     return series, vol, title
   end
 
   protected
-  def parseFileName!(fileName)
-    parts = fileName.split('/')
+  def parse_file_name!(file_name)
+    category = nil   # e.g., non-fiction, fan-fiction
+    grouping = ''
+
+    parts = file_name.split('/')
     (series_code, @volume, @title) = processTitle(parts[-1])
     if parts.length > 1
       grouping = parts[-2]
@@ -214,16 +214,34 @@ class Book
       @author = Author.new(grouping, reading_order, sort_order)
       @series_id = @store.get_series(grouping, series_code)
     end
+    if parts.length > 2
+      category = parts[-3]
+    end
 
-    if fileName.downcase.end_with?(".epub")
-      scanEpub!(fileName)
+    lc_file_name = file_name.downcase
+    if lc_file_name.end_with?(".epub")
+      scanEpub!(file_name)
+    elsif lc_file_name.end_with?(".pdf")
+      scan_pdf!(file_name)
+    end
+
+    @arrived = File.ctime(file_name)
+
+    @classification_id = @store.find_classification(@author.grouping, File.basename(file_name, '.*'))
+
+    # TODO:  Fix horrible hard-coded strings and paths
+    if ('01_nonfic' == category) && (nil == classification_id)
+      open(Store.unclassified_csv, 'a') do |fd|
+        fd.puts('"' + grouping.to_s + '","' + path + '"')
+      end
     end
   end
 
-  protected 
+  protected
   def scanEpub!(fileName)
     #puts 'Scanning "' + fileName.to_s + '"...'
     begin
+      Zip.warn_invalid_date = false
       Zip::File.open(fileName) do |zipfile|
         entry = zipfile.find_entry('META-INF/container.xml')
         if nil == entry
@@ -243,6 +261,25 @@ class Book
     end
   end
 
+  protected
+  def scan_pdf!(file_name)
+    #puts 'Scanning "' + file_name.to_s + '"...'
+
+    pdf_path = File.expand_path(file_name).to_s
+    if ! pdf_path.end_with?('.pdf')
+      puts 'Unexpected internal error:  path "' + file_name.to_s + '" does not end with ".pdf".'
+      return
+    end
+
+    jpeg_path = pdf_path[0..-5] + '.jpeg'
+    if File.file?(jpeg_path)
+      File.open(jpeg_path, 'r') do |is|
+        @cover = Cover.new(is, jpeg_path, 'image/jpeg')
+      end
+    end
+  end
+
+
   protected
   def scanOpf!(zipfile, opfPath)
     coverId = nil
@@ -288,7 +325,7 @@ class Book
 
     #---------------------------------------
     # Description
-    
+
     descrNodes = opfDoc.css('dc|description', 'dc' => @@DC_NS_URL)
     if (descrNodes.length > 0)
       descrNode = descrNodes[0]
@@ -297,6 +334,17 @@ class Book
       end
     end
 
+    #---------------------------------------
+    # Language
+
+    langNodes = opfDoc.css('dc|language', 'dc' => @@DC_NS_URL)
+    if (langNodes.length > 0)
+      langNode = langNodes[0]
+      if langNode
+        @language = langNode.content
+      end
+    end
+
     #---------------------------------------
     # Other metadata:  series, volume, cover
 
@@ -339,9 +387,9 @@ class Book
         entry = zipfile.find_entry(href)
 
         if nil == entry
-          # Although the epub standard requires the path to be relative 
+          # Although the epub standard requires the path to be relative
           # to the base of the epub (zip), some books encountered in the
-          # wild have been found to use a bath relative to the location 
+          # wild have been found to use a bath relative to the location
           # of the opf file.
           parts = opfPath.split('/')
           opfBasePath = opfPath.split('/')[0..-2].join('/')
@@ -349,6 +397,14 @@ class Book
           entry = zipfile.find_entry(coverPath)
         end
 
+        unless entry
+          # Another case found in the wild:  cover image is at the root, but path is '../cover.jpeg'
+          if href.start_with? '../'
+            coverPath = href[3..-1]
+            entry = zipfile.find_entry(coverPath)
+          end
+        end
+
         if nil == entry
           puts 'WARNING!  Cover image "' + href + '" not found in file "' + @path + '".'
           return nil